This is an automated email from the ASF dual-hosted git repository. luzhijing pushed a commit to branch master in repository https://gitbox.apache.org/repos/asf/doris-website.git
The following commit(s) were added to refs/heads/master by this push: new c4a3ebcd512 [doc] Fix several typos and improve wording (#839) c4a3ebcd512 is described below commit c4a3ebcd512daba76feea65bf2707139b66f77c9 Author: lishiqi_amy <amylee9...@163.com> AuthorDate: Mon Jul 8 21:09:34 2024 +0800 [doc] Fix several typos and improve wording (#839) 1. Update Velo to VeloDB 2. Improve wording for 2 doc titles 3. Fix an accuracy issue --- docs/compute-storage-decoupled/creating-cluster.md | 4 ++-- docs/practical-guide/log-storage-analysis.md | 4 ++-- i18n/zh-CN/docusaurus-plugin-content-docs/current.json | 8 ++++---- .../current/compute-storage-decoupled/creating-cluster.md | 6 +++--- .../current/table-design/index/bloomfilter.md | 8 ++++---- .../current/table-design/index/index-overview.md | 8 ++++---- i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json | 8 ++++---- .../version-2.0/table-design/index/bloomfilter.md | 8 ++++---- .../version-2.0/table-design/index/index-overview.md | 8 ++++---- i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json | 8 ++++---- .../version-2.1/table-design/index/bloomfilter.md | 8 ++++---- .../version-2.1/table-design/index/index-overview.md | 8 ++++---- sidebars.json | 4 ++-- .../version-2.0/practical-guide/log-storage-analysis.md | 4 ++-- .../version-2.1/practical-guide/log-storage-analysis.md | 4 ++-- versioned_sidebars/version-2.0-sidebars.json | 4 ++-- versioned_sidebars/version-2.1-sidebars.json | 4 ++-- 17 files changed, 53 insertions(+), 53 deletions(-) diff --git a/docs/compute-storage-decoupled/creating-cluster.md b/docs/compute-storage-decoupled/creating-cluster.md index c171c598d0a..9873aab6eea 100644 --- a/docs/compute-storage-decoupled/creating-cluster.md +++ b/docs/compute-storage-decoupled/creating-cluster.md @@ -282,13 +282,13 @@ Users can also choose to store their new tables in the `built-in storage vault`. Some of the storage vault configurations are modifiable. -Comming soon +Coming soon ### Delete storage vault Only non-default storage vaults that are not referenced by any tables can be deleted. -Comming soon +Coming soon ### Storage vault privilege diff --git a/docs/practical-guide/log-storage-analysis.md b/docs/practical-guide/log-storage-analysis.md index db36bec1b1a..dea89808803 100644 --- a/docs/practical-guide/log-storage-analysis.md +++ b/docs/practical-guide/log-storage-analysis.md @@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10; **Analyze logs visually** -VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: +VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: ![WebUI](/images/WebUI-EN.jpeg) @@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations: - Display of top field values in search results for finding anomalies and further drilling down for analysis -You can [click to download Velo Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file +You can [click to download VeloDB Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current.json b/i18n/zh-CN/docusaurus-plugin-content-docs/current.json index ce2444c762d..bb5fe224c59 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current.json +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current.json @@ -107,13 +107,13 @@ "message": "视图与物化视图", "description": "The label for category View and Materialize View in sidebar docs" }, - "sidebar.docs.category.Join Queries": { + "sidebar.docs.category.Join Optimization": { "message": "Join 优化", - "description": "The label for category Join Queries in sidebar docs" + "description": "The label for category Join Optimization in sidebar docs" }, - "sidebar.docs.category.Duplicating Query Results": { + "sidebar.docs.category.Distincting Counts": { "message": "高效去重", - "description": "The label for category Duplicating Query Results in sidebar docs" + "description": "The label for category Distincting Counts in sidebar docs" }, "sidebar.docs.category.Analyzing Query": { "message": "查询分析", diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md index 03eaaeaeb47..94eb9fa4af3 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/compute-storage-decoupled/creating-cluster.md @@ -151,7 +151,7 @@ curl -s "127.0.0.1:5000/MetaService/http/create_instance?token=greedisgood9999" ### **名词解释** - `vault name`:每个存储后端的名称为数仓实例内全局唯一,除 `built-in vault` 外,`vault name` 由用户创建存储后端时指定。 -- `built-in vault`:存算分离模式下,用于存储 Doris 系统表的远程共享存储。须在创建数仓实例时配置。`built-in vault` 的固定名称为 `built_in_storage_vault`。配置 `built-in vault`后,数仓 (FE) 才能启动。 +- `built-in vault`:存算分离模式下,用于存储 Doris 系统表的远程共享存储。须在创建数仓实例时配置。`built-in vault` 的固定名称为 `built_in_storage_vault`。配置 `built-in vault`后,数仓(FE)才能启动。 - `default vault`:数仓实例级别的默认存储后端,用户可以指定某个存储后端为默认存储后端,包括 `built-in vault` 也可作为默认存储后端。由于存算分离模式中,数据必须要存储在某个远程共享存储上,因此如果用户建表时未在 `PROPERTIES` 中指定 `vault_name`,该表数据会存储在 `default vault` 上。`default vault` 可被重新设置,但是已经创建的表所使用的存储后端不会随之改变。 配置 `built-in vault` 后,还可按需创建更多存储后端。FE 启动成功后,可通过 SQL 语句进行存储后端操作,包括创建存储后端,查看存储后端以及指定存储后端进行建表等。 @@ -282,13 +282,13 @@ PROPERTIES ( 用于更新 Storage Vault 配置的可修改属性。 -Comming soon +Coming soon ### 删除存储后端 只有非默认存储后端且没有被任何表引用的存储后端才可被删除。 -Comming soon +Coming soon ### 存储后端权限 diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md index 232ce995f69..5a77d68f27b 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/bloomfilter.md @@ -42,7 +42,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数 ![Bloom_filter.svg](/images/Bloom_filter.svg.png) -反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 +反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过 Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter 是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。 @@ -55,11 +55,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基 BloomFilter 的使用有下面一些限制: -- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 +- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 - 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。 -- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 +- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。 @@ -90,7 +90,7 @@ SHOW CREATE TABLE table_name; ### 已有表增加、删除 BloomFilter 索引 -通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 +通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 **为 column_name3 增加 BloomFilter 索引** ```SQL diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md index ea0626caaed..f6a6fd3c0c6 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/table-design/index/index-overview.md @@ -34,8 +34,8 @@ under the License. - 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024 行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。 - 倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少 I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代) - 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE 条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。 - - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 - - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 + - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 + - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter 里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 - NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入 BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的 pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE 条件,可以跳过这部分数据减少 I/O 加速查询。 上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter 索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。 @@ -45,8 +45,8 @@ under the License. | 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 | |-----------|-----------|-----------| -----------|-----------|-----------|-----------|-----------|-----------| | 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 | -| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | -| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 | +| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | +| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A | | 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 | 支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) | | 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 | 只支持 LIKE 加速 | diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json index 0d847df2227..cd5fda2c047 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0.json @@ -99,13 +99,13 @@ "message": "视图与物化视图", "description": "The label for category View and Materialize View in sidebar docs" }, - "sidebar.docs.category.Join Queries": { + "sidebar.docs.category.Join Optimization": { "message": "Join 优化", - "description": "The label for category Join Queries in sidebar docs" + "description": "The label for category Join Optimization in sidebar docs" }, - "sidebar.docs.category.Duplicating Query Results": { + "sidebar.docs.category.Distincting Counts": { "message": "高效去重", - "description": "The label for category Duplicate in sidebar docs" + "description": "The label for category Distincting Counts in sidebar docs" }, "sidebar.docs.category.Analyzing Query": { "message": "查询分析", diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md index a75604ff6ee..f1abc617947 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/bloomfilter.md @@ -42,7 +42,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数 ![Bloom_filter.svg](/images/Bloom_filter.svg.png) -反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 +反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过 Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter 是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。 @@ -55,11 +55,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基 BloomFilter 的使用有下面一些限制: -- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 +- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 - 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。 -- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 +- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。 @@ -90,7 +90,7 @@ SHOW CREATE TABLE table_name; ### 已有表增加、删除 BloomFilter 索引 -通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 +通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 **为 column_name3 增加 BloomFilter 索引** ```SQL diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md index ea0626caaed..f6a6fd3c0c6 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.0/table-design/index/index-overview.md @@ -34,8 +34,8 @@ under the License. - 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024 行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。 - 倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少 I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代) - 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE 条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。 - - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 - - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 + - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 + - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter 里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 - NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入 BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的 pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE 条件,可以跳过这部分数据减少 I/O 加速查询。 上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter 索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。 @@ -45,8 +45,8 @@ under the License. | 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 | |-----------|-----------|-----------| -----------|-----------|-----------|-----------|-----------|-----------| | 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 | -| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | -| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 | +| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | +| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A | | 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 | 支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) | | 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 | 只支持 LIKE 加速 | diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json index ee82fd1bcfe..49c2559ca0d 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1.json @@ -107,13 +107,13 @@ "message": "视图与物化视图", "description": "The label for category View and Materialize View in sidebar docs" }, - "sidebar.docs.category.Join Queries": { + "sidebar.docs.category.Join Optimization": { "message": "Join 优化", - "description": "The label for category Join Queries in sidebar docs" + "description": "The label for category Join Optimization in sidebar docs" }, - "sidebar.docs.category.Duplicating Query Results": { + "sidebar.docs.category.Distincting Counts": { "message": "高效去重", - "description": "The label for category Duplicating Query Results in sidebar docs" + "description": "The label for category Distincting Counts in sidebar docs" }, "sidebar.docs.category.Analyzing Query": { "message": "查询分析", diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md index 1e2533f9f0e..73021a4f56f 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/bloomfilter.md @@ -43,7 +43,7 @@ BloomFilter 是由一个超长的二进制位数组和一系列的哈希函数 ![Bloom_filter.svg](/images/Bloom_filter.svg.png) -反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter “假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 +反过来如果某个元素经过哈希函数计算后得到所有的偏移位置,若这些位置全都为 1,只能说明可能在集合中、不能肯定一定在集合中,因为 Hash 函数可能出现 Hash 碰撞。这就是 BloomFilter“假阳性”,因此基于 BloomFilter 的索引只能跳过不满足条件的数据,不能精确定位满足条件的数据。 Doris BloomFilter 索引以数据块(page)为单位构建,每个数据块存储一个 BloomFilter。写入时,对于数据块中的每个值,经过 Hash 存入数据块对应的 BloomFilter。查询时,根据等值条件的值,判断每个数据块对应的 BloomFilter 是否包含这个值,不包含则跳过对应的数据块不读取,达到减少 I/O 查询加速的目的。 @@ -56,11 +56,11 @@ BloomFilter 索引能够对等值查询(包括 = 和 IN)加速,对高基 BloomFilter 的使用有下面一些限制: -- 仅对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 +- 对 IN 和 = 之外的查询没有效果,比如 !=, NOT INT, >, < 等 - 不支持对 Tinyint、Float、Double 类型的列建 BloomFilter 索引。 -- 对低基数字段的加速效果很有限,比如 “性别” 字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 +- 对低基数字段的加速效果很有限,比如“性别”字段仅有两种值,几乎每个数据块都会包含所有取值,导致 BloomFilter 索引失去意义。 如果要查看某个查询 BloomFilter 索引效果,可以通过 Query Profile 中的相关指标进行分析。 @@ -91,7 +91,7 @@ SHOW CREATE TABLE table_name; ### 已有表增加、删除 BloomFilter 索引 -通过ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 +通过 ALTER TABLE 修改表的 bloom_filter_columns 属性来完成。 **为 column_name3 增加 BloomFilter 索引** ```SQL diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md index ea0626caaed..f6a6fd3c0c6 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/version-2.1/table-design/index/index-overview.md @@ -34,8 +34,8 @@ under the License. - 前缀索引:Apache Doris 按照排序键以有序的方式存储数据,并每隔 1024 行数据创建一个稀疏前缀索引。索引中的 Key 是当前 1024 行中第一行中排序列的值。如果查询涉及已排序列,系统将找到相关 1024 行组的第一行并从那里开始扫描。 - 倒排索引:对创建了倒排索引的列,建立每个值到对应行号集合的倒排表。对于等值查询,先从倒排表中查到行号集合,然后直接读取对应行的数据,而不用逐行扫描匹配数据,从而减少 I/O 加速查询。倒排索引还能加速范围过滤、文本关键词匹配,算法更加复杂但是基本原理类似。(备注:之前的 BITMAP 索引已经被更强的倒排索引取代) - 跳数索引:常用于加速分析,原理是通过索引确定不满足 WHERE 条件的数据块,跳过这些不满足条件的数据块,只读取可能满足条件的数据块并再进行一次逐行过滤,最终得到满足条件的行。跳数索引在满足条件的行比较多时效果较好。Apache Doris 的跳数索引包括 ZoneMap 索引、BloomFilter 索引、NGram BloomFilter 索引。 - - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 - - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 + - ZoneMap 索引:自动维护每一列的统计信息,为每一个数据文件(Segment)和数据块(Page)记录最大值、最小值、是否有 NULL。对于等值查询、范围查询、IS NULL,可以通过最大值、最小值、是否有 NULL 来判断数据文件和数据块是否可以包含满足条件的数据,如果没有则跳过不读对应的文件或数据块减少 I/O 加速查询。 + - BloomFilter 索引:将索引对应列的可能取值存入 BloomFilter 数据结构中,它可以快速判断一个值是否在 BloomFilter 里面,并且 BloomFilter 存储空间占用很低。对于等值查询,如果判断这个值不在 BloomFilter 里面,就可以跳过对应的数据文件或者数据块减少 I/O 加速查询。 - NGram BloomFilter 索引:用于加速文本 LIKE 查询,基本原理与 BloomFilter 索引类似,只是存入 BloomFilter 的不是原始文本的值,而是对文本进行 NGram 分词,每个词作为值存入 BloomFilter。对于 LIKE 查询,将 LIKE 的 pattern 也进行 NGram 分词,判断每个词是否在 BloomFilter 中,如果某个词不在则对应的数据文件或者数据块就不满足 LIKE 条件,可以跳过这部分数据减少 I/O 加速查询。 上述索引中,前缀索引和 ZoneMap 索引是 Apache Doris 自动维护的内建智能索引,无需用户管理,而倒排索引、BloomFilter 索引、NGram BloomFilter 索引则需要用户自己根据场景选择,手动创建、删除。 @@ -45,8 +45,8 @@ under the License. | 类型 | 索引 | 加速等于 | 加速不等 | 加速范围 | 加速 LIKE | 加速 MATCH(关键词、短语) | 优点 | 局限 | |-----------|-----------|-----------| -----------|-----------|-----------|-----------|-----------|-----------| | 点查索引 | 前缀索引 | YES | YES | YES | NO | NO | 最常用的过滤条件 | 一个表只有一个前缀索引 | -| 点查索引 | 倒排索引 | YES | YES | YES | COMMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | -| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | 一个表只有一个前缀索引 | +| 点查索引 | 倒排索引 | YES | YES | YES | COMING | YES | 支持分词和关键词匹配,任意列可建索引,多条件组合 | 索引存储空间较大,与原始数据相当 | +| 跳数索引 | ZoneMap 索引 | YES | YES | YES | NO | NO | 内置索引,索引存储空间小 | N/A | | 跳数索引 | BloomFilter 索引 | YES | NO | NO | NO | NO | 比 ZoneMap 更精细,索引空间较小 | 支持的查询类型少,只支持等于,不支持其他(不等、范围、LIKE、MATCH) | | 跳数索引 | NGram BloomFilter 索引 | NO | NO | NO | YES | NO | 支持 LIKE 加速,索引空间较小 | 只支持 LIKE 加速 | diff --git a/sidebars.json b/sidebars.json index b9fa62b5485..469c6a56286 100644 --- a/sidebars.json +++ b/sidebars.json @@ -220,7 +220,7 @@ }, { "type": "category", - "label": "Join Queries", + "label": "Join Optimization", "items": [ "query/join-optimization/doris-join-optimization", "query/join-optimization/bucket-shuffle-join", @@ -231,7 +231,7 @@ }, { "type": "category", - "label": "Duplicating Query Results", + "label": "Distincting Counts", "items": [ "query/duplicate/orthogonal-bitmap-manual", "query/duplicate/using-hll" diff --git a/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md b/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md index 36962f2e138..51092ee98c3 100644 --- a/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md +++ b/versioned_docs/version-2.0/practical-guide/log-storage-analysis.md @@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10; **Analyze logs visually** -VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: +VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: ![WebUI](/images/WebUI-EN.jpeg) @@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations: - Display of top field values in search results for finding anomalies and further drilling down for analysis -You can [click to download Velo Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file +You can [click to download VeloDB Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file diff --git a/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md b/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md index 60d6d891737..4e8058798f7 100644 --- a/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md +++ b/versioned_docs/version-2.1/practical-guide/log-storage-analysis.md @@ -574,7 +574,7 @@ ORDER BY ts DESC LIMIT 10; **Analyze logs visually** -VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called Velo Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: +VeloDB Enterprise Core, built on Apache Doris, provides a data development platform called VeloDB Enterprise WebUI ("WebUI"), featuring a Kibana Discover-like log retrieval and analysis interface for intuitive and easy exploratory log analysis interaction as shown in the image below: ![WebUI](/images/WebUI-EN.jpeg) @@ -590,4 +590,4 @@ On this interface, WebUI supports the following operations: - Display of top field values in search results for finding anomalies and further drilling down for analysis -You can [click to download Velo Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file +You can [click to download VeloDB Enterprise Core](https://www.velodb.io/download/enterprise) and [install it](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-distribution-doris-core-deployment-guide) to use WebUI. For more information about the main functions and how to use WebUI, see [WebUI](https://docs.velodb.io/enterprise/enterprise-core-guide/velodb-webui-guide). \ No newline at end of file diff --git a/versioned_sidebars/version-2.0-sidebars.json b/versioned_sidebars/version-2.0-sidebars.json index a5d65b43653..1ecafc5befb 100644 --- a/versioned_sidebars/version-2.0-sidebars.json +++ b/versioned_sidebars/version-2.0-sidebars.json @@ -199,7 +199,7 @@ }, { "type": "category", - "label": "Join Queries", + "label": "Join Optimization", "items": [ "query/join-optimization/doris-join-optimization", "query/join-optimization/bucket-shuffle-join", @@ -210,7 +210,7 @@ }, { "type": "category", - "label": "Duplicating Query Results", + "label": "Distincting Counts", "items": [ "query/duplicate/orthogonal-bitmap-manual", "query/duplicate/using-hll" diff --git a/versioned_sidebars/version-2.1-sidebars.json b/versioned_sidebars/version-2.1-sidebars.json index 131008531be..7e160b00670 100644 --- a/versioned_sidebars/version-2.1-sidebars.json +++ b/versioned_sidebars/version-2.1-sidebars.json @@ -219,7 +219,7 @@ }, { "type": "category", - "label": "Join Queries", + "label": "Join Optimization", "items": [ "query/join-optimization/doris-join-optimization", "query/join-optimization/bucket-shuffle-join", @@ -230,7 +230,7 @@ }, { "type": "category", - "label": "Duplicating Query Results", + "label": "Distincting Counts", "items": [ "query/duplicate/orthogonal-bitmap-manual", "query/duplicate/using-hll" --------------------------------------------------------------------- To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org For additional commands, e-mail: commits-h...@doris.apache.org