This is an automated email from the ASF dual-hosted git repository. jiafengzheng pushed a commit to branch master in repository https://gitbox.apache.org/repos/asf/doris-website.git
The following commit(s) were added to refs/heads/master by this push: new 435683c86f7 sidebar sort 435683c86f7 is described below commit 435683c86f7eb93b96739cf277e38b1ffb1c0b0c Author: jiafeng.zhang <zhang...@gmail.com> AuthorDate: Mon Aug 22 08:55:40 2022 +0800 sidebar sort --- .../current/data-table/index/bloomfilter.md | 4 ++-- sidebars.json | 8 ++++---- 2 files changed, 6 insertions(+), 6 deletions(-) diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md index 4382feccaaa..49fcde10dc2 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-table/index/bloomfilter.md @@ -42,9 +42,9 @@ BloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查 ## Doris BloomFilter索引及使用使用场景 -举个例子:如果要查找一个占用100字节存储空间大小的短行,一个64KB的HFile数据块应该包含(64 * 1024)/100 = 655.53 = ~700行,如果仅能在整个数据块的起始行键上建立索引,那么它是无法给你提供细粒度的索引信息的。因为要查找的行数据可能会落在该数据块的行区间上,也可能行数据没在该数据块上,也可能是表中根本就不存在该行数据,也或者是行数据在另一个HFile里,甚至在MemStore里。以上这几种情况,都会导致从磁盘读取数据块时带来额外的IO开销,也会滥用数据块的缓存,当面对一个巨大的数据集且处于高并发读时,会严重影响性能。 +举个例子:如果要查找一个占用100字节存储空间大小的短行,一个64KB的数据块应该包含(64 * 1024)/100 = 655.53 = ~700行,如果仅能在整个数据块的起始行键上建立索引,那么它是无法给你提供细粒度的索引信息的。因为要查找的行数据可能会落在该数据块的行区间上,也可能行数据没在该数据块上,也可能是表中根本就不存在该行数据,也或者是行数据在另一个数据块里,甚至在内存里。以上这几种情况,都会导致从磁盘读取数据块时带来额外的IO开销,也会滥用数据块的缓存,当面对一个巨大的数据集且处于高并发读时,会严重影响性能。 -因此,HBase提供了布隆过滤器,它允许你对存储在每个数据块的数据做一个反向测试。当某行被请求时,通过布隆过滤器先检查该行是否不在这个数据块,布隆过滤器要么确定回答该行不在,要么回答它不知道。这就是为什么我们称它是反向测试。布隆过滤器同样也可以应用到行里的单元上,当访问某列标识符时可以先使用同样的反向测试。 +因此,Doris 提供了布隆过滤器,它允许你对存储在每个数据块的数据做一个反向测试。当某行被请求时,通过布隆过滤器先检查该行是否不在这个数据块,布隆过滤器要么确定回答该行不在,要么回答它不知道。这就是为什么我们称它是反向测试。布隆过滤器同样也可以应用到行里的单元上,当访问某列标识符时可以先使用同样的反向测试。 但布隆过滤器也不是没有代价。存储这个额外的索引层次会占用额外的空间。布隆过滤器随着它们的索引对象数据增长而增长,所以行级布隆过滤器比列标识符级布隆过滤器占用空间要少。当空间不是问题时,它们可以帮助你榨干系统的性能潜力。 Doris的BloomFilter索引可以通过建表的时候指定,或者通过表的ALTER操作来完成。Bloom Filter本质上是一种位图结构,用于快速的判断一个给定的值是否在一个集合中。这种判断会产生小概率的误判。即如果返回false,则一定不在这个集合内。而如果范围true,则有可能在这个集合内。 diff --git a/sidebars.json b/sidebars.json index 1999efd7e4c..26d7a10c637 100644 --- a/sidebars.json +++ b/sidebars.json @@ -2,16 +2,16 @@ "docs": [ { "type": "category", - "label": "Getting Started", + "label": "Doris Introduction", "items": [ - "get-starting/get-starting" + "summary/basic-summary" ] }, { "type": "category", - "label": "Doris Introduction", + "label": "Getting Started", "items": [ - "summary/basic-summary" + "get-starting/get-starting" ] }, { --------------------------------------------------------------------- To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org For additional commands, e-mail: commits-h...@doris.apache.org