This is an automated email from the ASF dual-hosted git repository.

jiafengzheng pushed a commit to branch master
in repository https://gitbox.apache.org/repos/asf/doris-website.git


The following commit(s) were added to refs/heads/master by this push:
     new 435683c86f7 sidebar sort
435683c86f7 is described below

commit 435683c86f7eb93b96739cf277e38b1ffb1c0b0c
Author: jiafeng.zhang <zhang...@gmail.com>
AuthorDate: Mon Aug 22 08:55:40 2022 +0800

    sidebar sort
---
 .../current/data-table/index/bloomfilter.md                       | 4 ++--
 sidebars.json                                                     | 8 ++++----
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git 
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md
 
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md
index 4382feccaaa..49fcde10dc2 100644
--- 
a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md
+++ 
b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md
@@ -42,9 +42,9 @@ BloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查
 
 ## Doris BloomFilter索引及使用使用场景
 
-举个例子:如果要查找一个占用100字节存储空间大小的短行,一个64KB的HFile数据块应该包含(64 * 1024)/100 = 655.53 = 
~700行,如果仅能在整个数据块的起始行键上建立索引,那么它是无法给你提供细粒度的索引信息的。因为要查找的行数据可能会落在该数据块的行区间上,也可能行数据没在该数据块上,也可能是表中根本就不存在该行数据,也或者是行数据在另一个HFile里,甚至在MemStore里。以上这几种情况,都会导致从磁盘读取数据块时带来额外的IO开销,也会滥用数据块的缓存,当面对一个巨大的数据集且处于高并发读时,会严重影响性能。
+举个例子:如果要查找一个占用100字节存储空间大小的短行,一个64KB的数据块应该包含(64 * 1024)/100 = 655.53 = 
~700行,如果仅能在整个数据块的起始行键上建立索引,那么它是无法给你提供细粒度的索引信息的。因为要查找的行数据可能会落在该数据块的行区间上,也可能行数据没在该数据块上,也可能是表中根本就不存在该行数据,也或者是行数据在另一个数据块里,甚至在内存里。以上这几种情况,都会导致从磁盘读取数据块时带来额外的IO开销,也会滥用数据块的缓存,当面对一个巨大的数据集且处于高并发读时,会严重影响性能。
 
-因此,HBase提供了布隆过滤器,它允许你对存储在每个数据块的数据做一个反向测试。当某行被请求时,通过布隆过滤器先检查该行是否不在这个数据块,布隆过滤器要么确定回答该行不在,要么回答它不知道。这就是为什么我们称它是反向测试。布隆过滤器同样也可以应用到行里的单元上,当访问某列标识符时可以先使用同样的反向测试。
+因此,Doris 
提供了布隆过滤器,它允许你对存储在每个数据块的数据做一个反向测试。当某行被请求时,通过布隆过滤器先检查该行是否不在这个数据块,布隆过滤器要么确定回答该行不在,要么回答它不知道。这就是为什么我们称它是反向测试。布隆过滤器同样也可以应用到行里的单元上,当访问某列标识符时可以先使用同样的反向测试。
 
 
但布隆过滤器也不是没有代价。存储这个额外的索引层次会占用额外的空间。布隆过滤器随着它们的索引对象数据增长而增长,所以行级布隆过滤器比列标识符级布隆过滤器占用空间要少。当空间不是问题时,它们可以帮助你榨干系统的性能潜力。
 Doris的BloomFilter索引可以通过建表的时候指定,或者通过表的ALTER操作来完成。Bloom 
Filter本质上是一种位图结构,用于快速的判断一个给定的值是否在一个集合中。这种判断会产生小概率的误判。即如果返回false,则一定不在这个集合内。而如果范围true,则有可能在这个集合内。
diff --git a/sidebars.json b/sidebars.json
index 1999efd7e4c..26d7a10c637 100644
--- a/sidebars.json
+++ b/sidebars.json
@@ -2,16 +2,16 @@
     "docs": [
         {
             "type": "category",
-            "label": "Getting Started",
+            "label": "Doris Introduction",
             "items": [
-                "get-starting/get-starting"
+                "summary/basic-summary"
             ]
         },
         {
             "type": "category",
-            "label": "Doris Introduction",
+            "label": "Getting Started",
             "items": [
-                "summary/basic-summary"
+                "get-starting/get-starting"
             ]
         },
         {


---------------------------------------------------------------------
To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org
For additional commands, e-mail: commits-h...@doris.apache.org

Reply via email to