This is an automated email from the ASF dual-hosted git repository. luzhijing pushed a commit to branch master in repository https://gitbox.apache.org/repos/asf/doris-website.git
The following commit(s) were added to refs/heads/master by this push: new ccf39c1174 [Fix](docs) Export/Outfile supports `compress_type` properties. (#764) ccf39c1174 is described below commit ccf39c11744d21ff96abf0d4f7ce718b390f6ad8 Author: Tiewei Fang <43782773+bepppo...@users.noreply.github.com> AuthorDate: Sat Jun 29 10:07:15 2024 +0800 [Fix](docs) Export/Outfile supports `compress_type` properties. (#764) https://github.com/apache/doris/pull/36490 --------- Co-authored-by: Luzhijing <82810928+luzhij...@users.noreply.github.com> --- docs/data-operate/export/export-overview.md | 2 + docs/lakehouse/datalake-building/hive-build.md | 7 +- .../Manipulation/EXPORT.md | 2 + .../Data-Manipulation-Statements/OUTFILE.md | 3 +- .../current/data-operate/export/export-overview.md | 24 +++---- .../lakehouse/datalake-building/hive-build.md | 46 ++++++-------- .../Manipulation/EXPORT.md | 74 ++++++++++++---------- .../Data-Manipulation-Statements/OUTFILE.md | 53 ++++++++-------- 8 files changed, 109 insertions(+), 102 deletions(-) diff --git a/docs/data-operate/export/export-overview.md b/docs/data-operate/export/export-overview.md index 3a3a2abf41..fc90d2b6e7 100644 --- a/docs/data-operate/export/export-overview.md +++ b/docs/data-operate/export/export-overview.md @@ -105,6 +105,7 @@ The following table shows the mapping between Doris data types and Parquet, ORC | struct | struct | | map | map | | array | array | + |json| Not support| 2. When Doris exports to Parquet file format, it first converts Doris in-memory data to Arrow in-memory data format, then writes out to Parquet file format. The mapping relationship between Doris data types and Arrow data types is: @@ -127,3 +128,4 @@ The following table shows the mapping between Doris data types and Parquet, ORC | struct | struct | | map | map | | array | list | + |json| utf8 | diff --git a/docs/lakehouse/datalake-building/hive-build.md b/docs/lakehouse/datalake-building/hive-build.md index 6866bcae2e..3baa987ca4 100644 --- a/docs/lakehouse/datalake-building/hive-build.md +++ b/docs/lakehouse/datalake-building/hive-build.md @@ -144,7 +144,6 @@ This is an experimental feature. :::tip - 对于某些默认开启 ACID 事务特性的 Hive 集群,使用 Doris 建表后,表属性 `transactional` 会为 true。而 Doris 只支持部分 Hive 事务表的特性,因此可能会导致 Doris 创建的 Hive,Doris 本身无法读取的问题。因此,需要在建表的属性中,显式增加:`"transactional" = "false"`,来创建非事务的 Hive 表: For some Hive clusters that enable ACID transaction features by default, after using Doris to create a table, the table attribute `transactional` will be true. However, Doris only supports some features of Hive transaction tables, which may cause the problem that Doris itself cannot read the Hive created by Doris. Therefore, it is necessary to explicitly add: `"transactional" = "false"` in the table creation properties to create a non-transactional Hive table: ``` @@ -205,8 +204,8 @@ This is an experimental feature. - Compression Formats - - Parquet: snappy(default), zlib, zstd - - ORC: snappy, zlib(default), zstd + - Parquet: snappy(default), zstd, plain. (plain means no compression is used.) + - ORC: snappy, zlib(default), zstd, plain. (plain means no compression is used.) - Storage Medium @@ -263,7 +262,7 @@ CREATE TABLE hive.hive_db.hive_ctas (col1,col2,pt1) ENGINE=hive PARTITION BY LIST (pt1) () PROPERTIES ( "file_format"="parquet", -"parquet.compression"="zstd" +"compression"="zstd" ) AS SELECT col1,pt1 as col2,pt2 as pt1 FROM test_ctas.part_ctas_src WHERE col1>0; ``` diff --git a/docs/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md b/docs/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md index c6479d0e82..d913c48c6e 100644 --- a/docs/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md +++ b/docs/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md @@ -98,6 +98,8 @@ The bottom layer of the `Export` statement actually executes the `select...outfi - `timeout`: This is the timeout parameter of the export job, the default timeout is 2 hours, and the unit is seconds. + - `compress_type`: When specifying the export file format as Parquet or ORC, you can choose the compression method for the Parquet or ORC files. For Parquet file format, you can specify the compression method as SNAPPY, GZIP, BROTLI, ZSTD, LZ4, or PLAIN, with the default being SNAPPY. For ORC file format, you can specify the compression method as PLAIN, SNAPPY, ZLIB, or ZSTD, with the default being ZLIB. This parameter is supported starting from version 2.1.5. (PLAIN means no compressi [...] + > Note that to use the `delete_existing_files` parameter, you also need to add the configuration `enable_delete_existing_files = true` to the fe.conf file and restart the FE. Only then will the `delete_existing_files` parameter take effect. Setting `delete_existing_files = true` is a dangerous operation and it is recommended to only use it in a testing environment. - `WITH BROKER` diff --git a/docs/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md b/docs/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md index e0ab12ec93..ff35235aaa 100644 --- a/docs/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md +++ b/docs/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md @@ -81,7 +81,8 @@ INTO OUTFILE "file_path" max_file_size: the size limit of a single file, if the result exceeds this value, it will be cut into multiple files, the value range of max_file_size is [5MB, 2GB] and the default is 1GB. (When specified that the file format is ORC, the size of the actual division file will be a multiples of 64MB, such as: specify max_file_size = 5MB, and actually use 64MB as the division; specify max_file_size = 65MB, and will actually use 128MB as cut division points.) delete_existing_files: default `false`. If it is specified as true, you will first delete all files specified in the directory specified by the file_path, and then export the data to the directory.For example: "file_path" = "/user/tmp", then delete all files and directory under "/user/"; "file_path" = "/user/tmp/", then delete all files and directory under "/user/tmp/" file_suffix: Specify the suffix of the export file. If this parameter is not specified, the default suffix for the file format will be used. - + compress_type: When specifying the export file format as Parquet or ORC, you can choose the compression method for the Parquet or ORC files. For Parquet file format, you can specify the compression method as SNAPPY, GZIP, BROTLI, ZSTD, LZ4, or PLAIN, with the default being SNAPPY. For ORC file format, you can specify the compression method as PLAIN, SNAPPY, ZLIB, or ZSTD, with the default being ZLIB. This parameter is supported starting from version 2.1.5. (PLAIN means no compres [...] + Broker related properties need to be prefixed with `broker.`: broker.name: broker name broker.hadoop.security.authentication: specify the authentication method as kerberos diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-operate/export/export-overview.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-operate/export/export-overview.md index 76552b3edd..5fa29031fe 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-operate/export/export-overview.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/data-operate/export/export-overview.md @@ -24,25 +24,25 @@ specific language governing permissions and limitations under the License. --> -数据导出功能,用于将查询结果集或者 Doris 的表数据,使用指定的文件格式,写入指定的存储系统中的。 +数据导出功能,用于将查询结果集或者 Apache Doris 的表数据,使用指定的文件格式,写入指定的存储系统中的。 导出功能和数据备份功能有以下区别: | | 数据导出 | 数据备份| | ----- | ----- | ----- | |数据最终存储位置|HDFS、对象存储、本地文件系统|HDFS、对象存储| -|数据格式|Parquet、ORC、CSV 等开放格式|Doris 内部存储格式| -|执行速度 | 中等(需要读取数据并转换成目标数据格式)| 快速(无需解析和转换,直接上传 Doris 数据文件)| +|数据格式|Parquet、ORC、CSV 等开放格式|Apache Doris 内部存储格式| +|执行速度 | 中等(需要读取数据并转换成目标数据格式)| 快速(无需解析和转换,直接上传 Apache Doris 数据文件)| |灵活度 | 可以通过 SQL 语句灵活定义要导出的数据 | 仅支持表级别全量备份| -|使用场景 | 结果集下载、不同系统之间的数据交换 | 数据备份、Doris 集群间的数据迁移| +|使用场景 | 结果集下载、不同系统之间的数据交换 | 数据备份、Apache Doris 集群间的数据迁移| ## 选择导出方式 -Doris 提供以下三种不同的数据导出方式: +Apache Doris 提供以下三种不同的数据导出方式: * SELECT INTO OUTFILE:支持任意 SQL 结果集的导出。 * EXPORT:支持表级别的部分或全部数据导出。 -* MySQL DUMP:兼容 mysql dump 指令的数据导出。 +* MySQL DUMP:兼容 MySQL Dump 指令的数据导出。 三种导出方式的异同点如下: @@ -51,11 +51,11 @@ Doris 提供以下三种不同的数据导出方式: |同步/异步 | 同步 | 异步(提交 EXPORT 任务后通过 SHOW EXPORT 命令查看任务进度)| 同步| |支持任意 SQL|支持 | 不支持 | 不支持| |导出指定分区 | 支持 | 支持 | 不支持| -|导出指定 tablets|支持 | 不支持 | 不支持| +|导出指定 Tablets|支持 | 不支持 | 不支持| |并发导出 | 支持且并发高(但取决于 SQL 语句是否有 ORDER BY 等需要单机处理的算子)| 支持且并发高(支持 Tablet 粒度的并发导出)| 不支持,只能单线程导出| |支持导出的数据格式|Parquet、ORC、CSV|Parquet、ORC、CSV|MySQL Dump 专有格式| |是否支持导出外表 | 支持 | 部分支持 | 不支持| -|是否支持导出 view|支持 | 支持 | 支持| +|是否支持导出 View|支持 | 支持 | 支持| |支持的导出位置|S3、HDFS、LOCAL|S3、HDFS、LOCAL|LOCAL| ### SELECT INTO OUTFILE @@ -81,9 +81,9 @@ Doris 提供以下三种不同的数据导出方式: ## 导出文件列类型映射 -Parquet、ORC 文件格式拥有自己的数据类型。Doris 的导出功能能够自动将 Doris 的数据类型导出为 Parquet、ORC 文件格式的对应数据类型。CSV 格式没有类型,所有数据都以文本形式输出。 +Parquet、ORC 文件格式拥有自己的数据类型。Apache Doris 的导出功能能够自动将 Apache Doris 的数据类型导出为 Parquet、ORC 文件格式的对应数据类型。CSV 格式没有类型,所有数据都以文本形式输出。 -以下是 Doris 数据类型和 Parquet、ORC 文件格式的数据类型映射关系表: +以下是 Apache Doris 数据类型和 Parquet、ORC 文件格式的数据类型映射关系表: 1. Doris 导出到 Orc 文件格式的数据类型映射表: |Doris Type|Orc Type| @@ -105,9 +105,10 @@ Parquet、ORC 文件格式拥有自己的数据类型。Doris 的导出功能能 |struct|struct| |map|map| |array|array| + |json|不支持| <br/> -2. Doris 导出到 Parquet 文件格式时,会先将 Doris 内存数据转换为 arrow 内存数据格式,然后由 arrow 写出到 parquet 文件格式。Doris 数据类型到 arrow 数据类的映射关系为: +2. Apache Doris 导出到 Parquet 文件格式时,会先将 Apache Doris 内存数据转换为 Arrow 内存数据格式,然后由 Arrow 写出到 Parquet 文件格式。Apache Doris 数据类型到 Arrow 数据类的映射关系为: |Doris Type|Arrow Type| | ----- | ----- | @@ -128,3 +129,4 @@ Parquet、ORC 文件格式拥有自己的数据类型。Doris 的导出功能能 |struct|struct| |map|map| |array|list| + |json|utf8| diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/lakehouse/datalake-building/hive-build.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/lakehouse/datalake-building/hive-build.md index 794f3d989e..b860e42032 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/lakehouse/datalake-building/hive-build.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/lakehouse/datalake-building/hive-build.md @@ -24,11 +24,11 @@ specific language governing permissions and limitations under the License. --> -自 2.1.3 版本开始,Doris 支持对 Hive 的 DDL 和 DML 操作。用户可以直接通过 Doris 在 Hive 中创建库表,并将数据写入到 Hive 表中。通过该功能,用户可以通过 Doris 对 Hive 进行完整的数据查询和写入操作,进一步帮助用户简化湖仓一体架构。 +自 2.1.3 版本开始,Apache Doris 支持对 Hive 的 DDL 和 DML 操作。用户可以直接通过 Apache Doris 在 Hive 中创建库表,并将数据写入到 Hive 表中。通过该功能,用户可以通过 Apache Doris 对 Hive 进行完整的数据查询和写入操作,进一步帮助用户简化湖仓一体架构。 -本文介绍在 Doris 中支持的 Hive 操作,语法和使用须知。 +本文介绍在 Apache Doris 中支持的 Hive 操作,语法和使用须知。 -:::tip +:::tip 备注 这是一个实验功能。 ::: @@ -47,7 +47,7 @@ under the License. ); ``` - 注意,如如果需要通过 Doris 创建 Hive 表或写入数据,需要在 Catalog 属性中显式增加 `fs.defaultFS` 属性。如果创建 Catalog 仅用于查询,则该参数可以省略。 + 注意,如果需要通过 Apache Doris 创建 Hive 表或写入数据,需要在 Catalog 属性中显式增加 `fs.defaultFS` 属性。如果创建 Catalog 仅用于查询,则该参数可以省略。 更多参数,请参阅 [Hive Catalog](../datalake-analytics/hive.md) @@ -57,7 +57,7 @@ under the License. DROP CATALOG [IF EXISTS] hive; ``` - 删除 Catalog 并不会删除 hive 中的任何库表信息。仅仅是在 Doris 中移除了对这个 Hive 集群的映射。 + 删除 Catalog 并不会删除 hive 中的任何库表信息。仅仅是在 Apache Doris 中移除了对这个 Hive 集群的映射。 ### Database @@ -96,13 +96,15 @@ under the License. DROP DATABASE [IF EXISTS] hive.hive_db; ``` - 注意,对于 Hive Database,必须先删除这个 Database 下的所有表后,才能删除 Database,否则会报错。这个操作会同步删除 Hive 中对应的 Database。 + :::caution 注意 + 对于 Hive Database,必须先删除这个 Database 下的所有表后,才能删除 Database,否则会报错。这个操作会同步删除 Hive 中对应的 Database。 + ::: ### Table - 创建 - Doris 支持在 Hive 中创建分区或非分区表。 + Apache Doris 支持在 Hive 中创建分区或非分区表。 ``` -- Create unpartitioned hive table @@ -140,11 +142,11 @@ under the License. 创建后,可以通过 `SHOW CREATE TABLE` 命令查看 Hive 的建表语句。 - 注意,不同于 Hive 中的建表语句。在 Doris 中创建 Hive 分区表时,分区列也必须写到 Table 的 Schema 中。同时,分区列必须在所有 Schema 的最后,且顺序保持一致。 + 注意,不同于 Hive 中的建表语句。在 Apache Doris 中创建 Hive 分区表时,分区列也必须写到 Table 的 Schema 中。同时,分区列必须在所有 Schema 的最后,且顺序保持一致。 :::tip - 对于某些默认开启 ACID 事务特性的 Hive 集群,使用 Doris 建表后,表属性 `transactional` 会为 true。而 Doris 只支持部分 Hive 事务表的特性,因此可能会导致 Doris 创建的 Hive,Doris 本身无法读取的问题。因此,需要在建表的属性中,显式增加:`"transactional" = "false"`,来创建非事务的 Hive 表: + 对于某些默认开启 ACID 事务特性的 Hive 集群,使用 Apache Doris 建表后,表属性 `transactional` 会为 `true`。而 Apache Doris 只支持部分 Hive 事务表的特性,因此可能会导致 Apache Doris 创建的 Hive,Apache Doris 本身无法读取的问题。因此,需要在建表的属性中,显式增加:`"transactional" = "false"`,来创建非事务的 Hive 表: ``` CREATE TABLE non_acid_table( @@ -164,9 +166,9 @@ under the License. - 列类型 - 在 Doris 中创建 Hive 表所使用的列类型,和 Hive 中的列类型对应关系如下 + 在 Apache Doris 中创建 Hive 表所使用的列类型,和 Hive 中的列类型对应关系如下 - | Doris | Hive | + | Apache Doris | Hive | |---|---| | BOOLEAN | BOOLEAN | | TINYINT | TINYINT | @@ -185,13 +187,13 @@ under the License. | MAP | MAP | | STRUCT | STRUCT | - - 列类型只能为默认的 nullable,不支持 NOT NULL。 + - 列类型只能为默认的 Nullable,不支持 NOT NULL。 - Hive 3.0 支持设置默认值。如果需要设置默认值,则需要再 Catalog 属性中显示的添加 `"hive.version" = "3.0.0"` - 插入数据后,如果类型不能够兼容,例如 `'abc'` 插入到数值类型,则会转为 null 值后插入。 - 分区 - Hive 中的分区类型对应 Doris 中的 List 分区。因此,在 Doris 中 创建 Hive 分区表,需使用 List 分区的建表语句,但无需显式的枚举各个分区。在写入数据时,Doris 会根据数据的值,自动创建对应的 Hive 分区。 + Hive 中的分区类型对应 Apache Doris 中的 List 分区。因此,在 Apache Doris 中 创建 Hive 分区表,需使用 List 分区的建表语句,但无需显式的枚举各个分区。在写入数据时,Apache Doris 会根据数据的值,自动创建对应的 Hive 分区。 支持创建单列或多列分区表。 @@ -202,8 +204,8 @@ under the License. - 压缩格式 - - Parquet:snappy(默认),zlib,zstd - - ORC:snappy,zlib(默认),zstd + - Parquet:snappy(默认),zstd,plain。(Plain 就是不采用压缩) + - ORC:snappy,zlib(默认),zstd,plain。(Plain 就是不采用压缩) - 存储介质 @@ -214,7 +216,7 @@ under the License. 可以通过 INSERT 语句将数据写入到 Hive 表中。 -支持写入到由 Doris 创建的 Hive 表,或者 Hive 中已存在的且格式支持的表。 +支持写入到由 Apache Doris 创建的 Hive 表,或者 Hive 中已存在的且格式支持的表。 对于分区表,会根据数据,自动写入到对应分区,或者创建新的分区。 @@ -260,7 +262,7 @@ CREATE TABLE hive.hive_db.hive_ctas (col1,col2,pt1) ENGINE=hive PARTITION BY LIST (pt1) () PROPERTIES ( "file_format"="parquet", - "parquet.compression"="zstd" + "compression"="zstd" ) AS SELECT col1,pt1 as col2,pt2 as pt1 FROM test_ctas.part_ctas_src WHERE col1>0; ``` @@ -283,9 +285,9 @@ TODO ### 并发写入机制 -当前 Doris 支持使用多个插入语句进行并发写入。不过需要注意的是,用户需要控制并发写入不产生可能冲突的情况。 +当前 Apache Doris 支持使用多个插入语句进行并发写入。不过需要注意的是,用户需要控制并发写入不产生可能冲突的情况。 -因为普通非事务 Hive 表缺少完备的事务机制。通过上文介绍的 Doris 事务机制我们知道目前 Doris 中的实现只能是尽力而为地减少可能不一致的时间窗口,而无法保证真正的 ACID。因此在 Doris 中进行并发写入Hive 表可能会导致数据一致性问题。 +因为普通非事务 Hive 表缺少完备的事务机制。通过上文介绍的 Apache Doris 事务机制我们知道目前 Apache Doris 中的实现只能是尽力而为地减少可能不一致的时间窗口,而无法保证真正的 ACID。因此在 Apache Doris 中进行并发写入Hive 表可能会导致数据一致性问题。 1. `INSERT` 并发操作 @@ -378,9 +380,3 @@ TODO | `table_sink_partition_write_min_data_processed_rebalance_threshold` | 分区表开始触发重平衡的最少数据量阈值。如果 `当前累积的数据量` - `自从上次触发重平衡或者最开始累积的数据量` >= `table_sink_partition_write_min_data_processed_rebalance_threshold`,就开始触发重平衡机制。如果发现最终生成的文件大小差异过大,可以调小改阈值来增加均衡度。当然过小的阈值会导致重平衡的成本增加,可能会影响性能。 | 25MB | | `table_sink_partition_write_min_partition_data_processed_rebalance_threshold` | 分区表开始进行重平衡时的最少的分区数据量阈值。如果 `当前分区的数据量` >= `阈值` * `当前分区已经分配的 task 数目`,就开始对该分区进行重平衡。如果发现最终生成的文件大小差异过大,可以调小改阈值来增加均衡度。当然过小的阈值会导致重平衡的成本增加,可能会影响性能。 | 15MB | - - - - - - diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md index 07d71dc867..7d2abcedbf 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/Manipulation/EXPORT.md @@ -54,11 +54,11 @@ EXPORT - `table_name` - 当前要导出的表的表名。支持 Doris 本地表、视图View、Catalog外表数据的导出。 + 当前要导出的表的表名。支持 Doris 本地表、视图 View、Catalog 外表数据的导出。 - `partition` - 可以只导出指定表的某些指定分区,只对Doris本地表有效。 + 可以只导出指定表的某些指定分区,只对 Doris 本地表有效。 - `export_path` @@ -74,29 +74,33 @@ EXPORT 可以指定如下参数: - - `label`: 可选参数,指定此次Export任务的label,当不指定时系统会随机生成一个label。 + - `label`: 可选参数,指定此次 Export 任务的 Label,当不指定时系统会随机生成一个 Label。 - - `column_separator`:指定导出的列分隔符,默认为\t,支持多字节。该参数只用于csv文件格式。 + - `column_separator`:指定导出的列分隔符,默认为 \t,支持多字节。该参数只用于 CSV 文件格式。 - - `line_delimiter`:指定导出的行分隔符,默认为\n,支持多字节。该参数只用于csv文件格式。 + - `line_delimiter`:指定导出的行分隔符,默认为 \n,支持多字节。该参数只用于 CSV 文件格式。 - `columns`:指定导出表的某些列。 - - `format`:指定导出作业的文件格式,支持:parquet, orc, csv, csv_with_names、csv_with_names_and_types。默认为csv格式。 + - `format`:指定导出作业的文件格式,支持:parquet, orc, csv, csv_with_names、csv_with_names_and_types。默认为 CSV 格式。 - - `max_file_size`:导出作业单个文件大小限制,如果结果超过这个值,将切割成多个文件。`max_file_size`取值范围是[5MB, 2GB], 默认为1GB。(当指定导出为orc文件格式时,实际切分文件的大小将是64MB的倍数,如:指定max_file_size = 5MB, 实际将以64MB为切分;指定max_file_size = 65MB, 实际将以128MB为切分) + - `max_file_size`:导出作业单个文件大小限制,如果结果超过这个值,将切割成多个文件。`max_file_size`取值范围是[5MB, 2GB], 默认为1GB。(当指定导出为orc文件格式时,实际切分文件的大小将是64MB的倍数,如:指定 max_file_size = 5MB, 实际将以 64MB 为切分;指定 max_file_size = 65MB, 实际将以 128MB 为切分) - - `parallelism`:导出作业的并发度,默认为`1`,导出作业会开启`parallelism`个数的线程去执行`select into outfile`语句。(如果parallelism个数大于表的tablets个数,系统将自动把parallelism设置为tablets个数大小,即每一个`select into outfile`语句负责一个tablets) + - `parallelism`:导出作业的并发度,默认为`1`,导出作业会开启`parallelism`个数的线程去执行`select into outfile`语句。(如果 Parallelism 个数大于表的 Tablets 个数,系统将自动把 Parallelism 设置为 Tablets 个数大小,即每一个`select into outfile`语句负责一个 Tablets) - - `delete_existing_files`: 默认为false,若指定为true,则会先删除`export_path`所指定目录下的所有文件,然后导出数据到该目录下。例如:"export_path" = "/user/tmp", 则会删除"/user/"下所有文件及目录;"file_path" = "/user/tmp/", 则会删除"/user/tmp/"下所有文件及目录。 + - `delete_existing_files`: 默认为 `false`,若指定为 `true`,则会先删除`export_path`所指定目录下的所有文件,然后导出数据到该目录下。例如:"export_path" = "/user/tmp", 则会删除"/user/"下所有文件及目录;"file_path" = "/user/tmp/", 则会删除"/user/tmp/"下所有文件及目录。 - - `with_bom`: 默认为false,若指定为true,则导出的文件编码为带有BOM的UTF8编码(只对csv相关的文件格式生效)。 + - `with_bom`: 默认为 `false`,若指定为 `true`,则导出的文件编码为带有BOM的UTF8编码(只对csv相关的文件格式生效)。 - `data_consistency`: 可以设置为 `none` / `partition` ,默认为 `partition` 。指示以何种粒度切分导出表,`none` 代表 Tablets 级别,`partition`代表 Partition 级别。 - `timeout`:导出作业的超时时间,默认为2小时,单位是秒。 - > 注意:要使用delete_existing_files参数,还需要在fe.conf中添加配置`enable_delete_existing_files = true`并重启fe,此时delete_existing_files才会生效。delete_existing_files = true 是一个危险的操作,建议只在测试环境中使用。 + - `compress_type`:当指定导出的文件格式为 Parquet / ORC 文件时,可以指定 Parquet / ORC 文件使用的压缩方式。Parquet 文件格式可指定压缩方式为 SNAPPY,GZIP,BROTLI,ZSTD,LZ4 及 PLAIN,默认值为 SNAPPY。ORC 文件格式可指定压缩方式为 PLAIN,SNAPPY,ZLIB 以及 ZSTD,默认值为 ZLIB。该参数自2.1.5版本开始支持。(PLAIN 就是不采用压缩) + + :::caution 注意 + 要使用delete_existing_files参数,还需要在fe.conf中添加配置`enable_delete_existing_files = true`并重启fe,此时delete_existing_files才会生效。delete_existing_files = true 是一个危险的操作,建议只在测试环境中使用。 + ::: @@ -109,7 +113,7 @@ EXPORT WITH BROKER "broker_name" ("key"="value"[,...]) - Broker相关属性: + Broker 相关属性: username: 用户名 password: 密码 hadoop.security.authentication: 指定认证方式为 kerberos @@ -153,20 +157,20 @@ EXPORT AWS_ACCESS_KEY AWS_SECRET_KEY AWS_REGION - use_path_style: (选填) 默认为false 。S3 SDK 默认使用 virtual-hosted style 方式。但某些对象存储系统可能没开启或不支持virtual-hosted style 方式的访问,此时可以添加 use_path_style 参数来强制使用 path style 访问方式。 + use_path_style: (选填) 默认为 `false`。S3 SDK 默认使用 Virtual-hosted Style 方式。但某些对象存储系统可能没开启或不支持 Virtual-hosted Style 方式的访问,此时可以添加 `use_path_style` 参数来强制使用 Path Style 访问方式。 ``` ### Example -#### export数据到本地 -> export数据到本地文件系统,需要在fe.conf中添加`enable_outfile_to_local=true`并且重启FE。 +#### Export 数据到本地 +> Export数据到本地文件系统,需要在 `fe.conf` 中添加 `enable_outfile_to_local=true` 并且重启 FE。 -1. 将test表中的所有数据导出到本地存储, 默认导出csv格式文件 +1. 将 Test 表中的所有数据导出到本地存储, 默认导出 CSV 格式文件 ```sql EXPORT TABLE test TO "file:///home/user/tmp/"; ``` -2. 将test表中的k1,k2列导出到本地存储, 默认导出csv文件格式,并设置label +2. 将 Test 表中的 k1,k2 列导出到本地存储, 默认导出 CSV 文件格式,并设置 Label ```sql EXPORT TABLE test TO "file:///home/user/tmp/" PROPERTIES ( @@ -175,7 +179,7 @@ PROPERTIES ( ); ``` -3. 将test表中的 `k1 < 50` 的行导出到本地存储, 默认导出csv格式文件,并以`,`作为列分割符 +3. 将 Test 表中的 `k1 < 50` 的行导出到本地存储, 默认导出 CSV 格式文件,并以 `,` 作为列分割符 ```sql EXPORT TABLE test WHERE k1 < 50 TO "file:///home/user/tmp/" PROPERTIES ( @@ -184,13 +188,13 @@ PROPERTIES ( ); ``` -4. 将 test 表中的分区p1,p2导出到本地存储, 默认导出csv格式文件 +4. 将 Test 表中的分区p1,p2导出到本地存储, 默认导出csv格式文件 ```sql EXPORT TABLE test PARTITION (p1,p2) TO "file:///home/user/tmp/" PROPERTIES ("columns" = "k1,k2"); ``` -5. 将test表中的所有数据导出到本地存储,导出其他格式的文件 +5. 将 Test 表中的所有数据导出到本地存储,导出其他格式的文件 ```sql // parquet格式 EXPORT TABLE test TO "file:///home/user/tmp/" @@ -221,7 +225,7 @@ PROPERTIES ( ); ``` -6. 设置max_file_sizes属性 +6. 设置 `max_file_sizes` 属性 ```sql EXPORT TABLE test TO "file:///home/user/tmp/" PROPERTIES ( @@ -229,9 +233,9 @@ PROPERTIES ( "max_file_size" = "5MB" ); ``` -当导出文件大于5MB时,将切割数据为多个文件,每个文件最大为5MB。 +当导出文件大于 5MB 时,将切割数据为多个文件,每个文件最大为 5MB。 -7. 设置parallelism属性 +7. 设置 `parallelism` 属性 ```sql EXPORT TABLE test TO "file:///home/user/tmp/" PROPERTIES ( @@ -241,7 +245,7 @@ PROPERTIES ( ); ``` -8. 设置delete_existing_files属性 +8. 设置 `delete_existing_files` 属性 ```sql EXPORT TABLE test TO "file:///home/user/tmp" PROPERTIES ( @@ -250,11 +254,11 @@ PROPERTIES ( "delete_existing_files" = "true" ); ``` -Export导出数据时会先将`/home/user/`目录下所有文件及目录删除,然后导出数据到该目录下。 +Export 导出数据时会先将`/home/user/`目录下所有文件及目录删除,然后导出数据到该目录下。 #### export with S3 -1. 将 s3_test 表中的所有数据导出到 s3 上,以不可见字符 "\x07" 作为列或者行分隔符。如果需要将数据导出到minio,还需要指定use_path_style=true。 +1. 将 s3_test 表中的所有数据导出到 S3 上,以不可见字符 "\x07" 作为列或者行分隔符。如果需要将数据导出到 minio,还需要指定 `use_path_style`=`true`。 ```sql EXPORT TABLE s3_test TO "s3://bucket/a/b/c" @@ -271,7 +275,7 @@ PROPERTIES ( #### export with HDFS -1. 将 test 表中的所有数据导出到 HDFS 上,导出文件格式为parquet,导出作业单个文件大小限制为512MB,保留所指定目录下的所有文件。 +1. 将 Test 表中的所有数据导出到 HDFS 上,导出文件格式为 Parquet,导出作业单个文件大小限制为 512MB,保留所指定目录下的所有文件。 ```sql EXPORT TABLE test TO "hdfs://hdfs_host:port/a/b/c/" @@ -287,8 +291,8 @@ with HDFS ( ``` #### export with Broker -需要先启动broker进程,并在FE中添加该broker。 -1. 将 test 表中的所有数据导出到 hdfs 上 +需要先启动 Broker 进程,并在FE中添加该 Broker。 +1. 将 Test 表中的所有数据导出到 hdfs 上 ```sql EXPORT TABLE test TO "hdfs://hdfs_host:port/a/b/c" WITH BROKER "broker_name" @@ -298,7 +302,7 @@ WITH BROKER "broker_name" ); ``` -2. 将 testTbl 表中的分区p1,p2导出到 hdfs 上,以","作为列分隔符,并指定label +2. 将 testTbl 表中的分区 p1,p2 导出到 hdfs 上,以","作为列分隔符,并指定 Label ```sql EXPORT TABLE testTbl PARTITION (p1,p2) TO "hdfs://hdfs_host:port/a/b/c" @@ -336,7 +340,7 @@ WITH BROKER "broker_name" #### 并发执行 -一个 Export 作业可以设置`parallelism`参数来并发导出数据。`parallelism`参数实际就是指定执行 EXPORT 作业的线程数量。当设置`"data_consistency" = "none"`时,每一个线程会负责导出表的部分Tablets。 +一个 Export 作业可以设置`parallelism`参数来并发导出数据。`parallelism`参数实际就是指定执行 EXPORT 作业的线程数量。当设置`"data_consistency" = "none"`时,每一个线程会负责导出表的部分 Tablets。 一个 Export 作业的底层执行逻辑实际上是`SELECT INTO OUTFILE`语句,`parallelism`参数设置的每一个线程都会去执行独立的`SELECT INTO OUTFILE`语句。 @@ -348,7 +352,7 @@ Export 作业拆分成多个`SELECT INTO OUTFILE`的具体逻辑是:将该表 - 一个线程负责的tablets数量分别为 14,`maximum_tablets_of_outfile_in_export = 10`,则该线程负责两个`SELECT INTO OUTFILE`语句,第一个`SELECT INTO OUTFILE`语句导出10个tablets,第二个`SELECT INTO OUTFILE`语句导出4个tablets,两个`SELECT INTO OUTFILE`语句由该线程串行执行。 -当所要导出的数据量很大时,可以考虑适当调大`parallelism`参数来增加并发导出。若机器核数紧张,无法再增加`parallelism` 而导出表的Tablets又较多 时,可以考虑调大`maximum_tablets_of_outfile_in_export`来增加一个`SELECT INTO OUTFILE`语句负责的tablets数量,也可以加快导出速度。 +当所要导出的数据量很大时,可以考虑适当调大`parallelism`参数来增加并发导出。若机器核数紧张,无法再增加`parallelism` 而导出表的Tablets又较多时,可以考虑调大`maximum_tablets_of_outfile_in_export`来增加一个`SELECT INTO OUTFILE`语句负责的tablets数量,也可以加快导出速度。 若希望以 Parition 粒度导出 Table ,可以设置 Export 属性 `"data_consistency" = "partition"` ,此时 Export 任务并发的线程会以 Parition 粒度来划分为多个 Outfile 语句,不同的 Outfile 语句导出的 Parition 不同,而同一个 Outfile 语句导出的数据一定属于同一个 Partition。如:设置 `"data_consistency" = "partition"` 后 @@ -360,7 +364,7 @@ Export 作业拆分成多个`SELECT INTO OUTFILE`的具体逻辑是:将该表 通常一个 Export 作业的查询计划只有 `扫描-导出` 两部分,不涉及需要太多内存的计算逻辑。所以通常 2GB 的默认内存限制可以满足需求。 -但在某些场景下,比如一个查询计划,在同一个 BE 上需要扫描的 Tablet 过多,或者 Tablet 的数据版本过多时,可能会导致内存不足。可以调整session变量`exec_mem_limit`来调大内存使用限制。 +但在某些场景下,比如一个查询计划,在同一个 BE 上需要扫描的 Tablet 过多,或者 Tablet 的数据版本过多时,可能会导致内存不足。可以调整 Session 变量 `exec_mem_limit` 来调大内存使用限制。 #### 注意事项 @@ -370,6 +374,6 @@ Export 作业拆分成多个`SELECT INTO OUTFILE`的具体逻辑是:将该表 - Export 作业会扫描数据,占用 IO 资源,可能会影响系统的查询延迟。 -- 目前在export时只是简单检查tablets版本是否一致,建议在执行export过程中不要对该表进行导入数据操作。 +- 目前在 Export 时只是简单检查 Tablets 版本是否一致,建议在执行 Export 过程中不要对该表进行导入数据操作。 -- 一个Export Job允许导出的分区数量最大为2000,可以在fe.conf中添加参数`maximum_number_of_export_partitions`并重启FE来修改该设置。 +- 一个 Export Job 允许导出的分区数量最大为 2000,可以在 `fe.conf` 中添加参数 `maximum_number_of_export_partitions` 并重启 FE 来修改该设置。 diff --git a/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md b/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md index d2279f9311..a076de888a 100644 --- a/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md +++ b/i18n/zh-CN/docusaurus-plugin-content-docs/current/sql-manual/sql-statements/Data-Manipulation-Statements/OUTFILE.md @@ -32,7 +32,7 @@ OUTFILE ### description - `SELECT INTO OUTFILE` 命令用于将查询结果导出为文件。目前支持通过 Broker 进程, S3 协议或HDFS 协议,导出到远端存储,如 HDFS,S3,BOS,COS(腾讯云)上。 + `SELECT INTO OUTFILE` 命令用于将查询结果导出为文件。目前支持通过 Broker 进程, S3 协议或 HDFS 协议,导出到远端存储,如 HDFS,S3,BOS,COS(腾讯云)上。 #### 语法: @@ -73,18 +73,19 @@ INTO OUTFILE "file_path" 3. properties ``` - 指定相关属性。目前支持通过 Broker 进程, 或通过 S3/HDFS协议进行导出。 + 指定相关属性。目前支持通过 Broker 进程, 或通过 S3/HDFS 协议进行导出。 语法: [PROPERTIES ("key"="value", ...)] 支持如下属性: 文件相关的属性: - column_separator: 列分隔符,只用于csv相关格式。在 1.2 版本开始支持多字节分隔符,如:"\\x01", "abc"。 - line_delimiter: 行分隔符,只用于csv相关格式。在 1.2 版本开始支持多字节分隔符,如:"\\x01", "abc"。 - max_file_size: 单个文件大小限制,如果结果超过这个值,将切割成多个文件, max_file_size取值范围是[5MB, 2GB], 默认为1GB。(当指定导出为orc文件格式时,实际切分文件的大小将是64MB的倍数,如:指定max_file_size = 5MB, 实际将以64MB为切分;指定max_file_size = 65MB, 实际将以128MB为切分) - delete_existing_files: 默认为false,若指定为true,则会先删除file_path指定的目录下的所有文件,然后导出数据到该目录下。例如:"file_path" = "/user/tmp", 则会删除"/user/"下所有文件及目录;"file_path" = "/user/tmp/", 则会删除"/user/tmp/"下所有文件及目录。 - file_suffix: 指定导出文件的后缀,若不指定该参数,将使用文件格式的默认后缀。 + `column_separator`: 列分隔符,只用于 CSV 相关格式。在 1.2 版本开始支持多字节分隔符,如:"\\x01", "abc"。 + `line_delimiter`: 行分隔符,只用于 CSV 相关格式。在 1.2 版本开始支持多字节分隔符,如:"\\x01", "abc"。 + `max_file_size`: 单个文件大小限制,如果结果超过这个值,将切割成多个文件, `max_file_size` 取值范围是[5MB, 2GB], 默认为 `1GB`。(当指定导出为 OCR 文件格式时,实际切分文件的大小将是 64MB 的倍数,如:指定 `max_file_size = 5MB`, 实际将以 64 MB 为切分;指定 `max_file_size = 65MB`, 实际将以 128 MB 为切分) + `delete_existing_files`: 默认为 `false`,若指定为 `true`,则会先删除 `file_path` 指定的目录下的所有文件,然后导出数据到该目录下。例如:"file_path" = "/user/tmp", 则会删除"/user/"下所有文件及目录;"file_path" = "/user/tmp/", 则会删除"/user/tmp/"下所有文件及目录。 + `file_suffix`: 指定导出文件的后缀,若不指定该参数,将使用文件格式的默认后缀。 + `compress_type`:当指定导出的文件格式为 Parquet / ORC 文件时,可以指定 Parquet / ORC 文件使用的压缩方式。Parquet 文件格式可指定压缩方式为 SNAPPY,GZIP,BROTLI,ZSTD,LZ4 及 PLAIN,默认值为 SNAPPY。ORC 文件格式可指定压缩方式为 PLAIN,SNAPPY,ZLIB 以及 ZSTD,默认值为 ZLIB。该参数自 2.1.5 版本开始支持。(PLAIN 就是不采用压缩) Broker 相关属性需加前缀 `broker.`: broker.name: broker名称 @@ -111,10 +112,10 @@ INTO OUTFILE "file_path" s3.access_key s3.secret_key s3.region - use_path_style: (选填) 默认为false 。S3 SDK 默认使用 virtual-hosted style 方式。但某些对象存储系统可能没开启或不支持virtual-hosted style 方式的访问,此时可以添加 use_path_style 参数来强制使用 path style 访问方式。 + use_path_style: (选填) 默认为 `false` 。S3 SDK 默认使用 Virtual-hosted Style 方式。但某些对象存储系统可能没开启或不支持 Virtual-hosted Style 方式的访问,此时可以添加 `use_path_style` 参数来强制使用 Path Style 访问方式。 ``` - > 注意:若要使用delete_existing_files参数,还需要在fe.conf中添加配置`enable_delete_existing_files = true`并重启fe,此时delete_existing_files才会生效。delete_existing_files = true 是一个危险的操作,建议只在测试环境中使用。 + > 注意:若要使用 `delete_existing_files` 参数,还需要在 `fe.conf` 中添加配置`enable_delete_existing_files = true`并重启fe,此时delete_existing_files才会生效。delete_existing_files = true 是一个危险的操作,建议只在测试环境中使用。 4. 导出的数据类型 @@ -122,11 +123,11 @@ INTO OUTFILE "file_path" 5. 并发导出 - 设置session变量```set enable_parallel_outfile = true;```可开启outfile并发导出,详细使用方法见[导出查询结果集](../../../data-operate/export/outfile.md) + 设置 Session 变量```set enable_parallel_outfile = true;```可开启 Outfile 并发导出,详细使用方法见[导出查询结果集](../../../data-operate/export/outfile.md) 6. 导出到本地 - 导出到本地文件时需要先在fe.conf中配置`enable_outfile_to_local=true` + 导出到本地文件时需要先在 `fe.conf` 中配置`enable_outfile_to_local=true` ```sql select * from tbl1 limit 10 @@ -135,9 +136,9 @@ INTO OUTFILE "file_path" #### 数据类型映射 -parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能够自动将Doris的数据类型导出到parquet/orc文件格式的对应数据类型,以下是Doris数据类型和parquet/orc文件格式的数据类型映射关系表: +Parquet、ORC 文件格式拥有自己的数据类型,Doris的导出功能能够自动将 Doris 的数据类型导出到 Parquet/ORC 文件格式的对应数据类型,以下是 Apache Doris 数据类型和 Parquet/ORC 文件格式的数据类型映射关系表: -1. Doris导出到Orc文件格式的数据类型映射表: +1. Doris 导出到 ORC 文件格式的数据类型映射表: | Doris Type | Orc Type | | --- | --- | @@ -160,7 +161,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 | array | array | -2. Doris导出到Parquet文件格式时,会先将Doris内存数据转换为arrow内存数据格式,然后由arrow写出到parquet文件格式。Doris数据类型到arrow数据类的映射关系为: +2. Doris 导出到 Parquet 文件格式时,会先将 Doris 内存数据转换为 Arrow 内存数据格式,然后由 Arrow 写出到 Parquet 文件格式。Doris 数据类型到 Arrow 数据类的映射关系为: | Doris Type | Arrow Type | | --- | --- | @@ -184,7 +185,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ### example -1. 使用 broker 方式导出,将简单查询结果导出到文件 `hdfs://path/to/result.txt`。指定导出格式为 CSV。使用 `my_broker` 并设置 kerberos 认证信息。指定列分隔符为 `,`,行分隔符为 `\n`。 +1. 使用 Broker 方式导出,将简单查询结果导出到文件 `hdfs://path/to/result.txt`。指定导出格式为 CSV。使用 `my_broker` 并设置 kerberos 认证信息。指定列分隔符为 `,`,行分隔符为 `\n`。 ```sql SELECT * FROM tbl @@ -220,7 +221,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ); ``` -3. 将 CTE 语句的查询结果导出到文件 `hdfs://path/to/result.txt`。默认导出格式为 CSV。使用 `my_broker` 并设置 hdfs 高可用信息。使用默认的行列分隔符。 +3. 将 CTE 语句的查询结果导出到文件 `hdfs://path/to/result.txt`。默认导出格式为 CSV。使用 `my_broker` 并设置 HDFS 高可用信息。使用默认的行列分隔符。 ```sql WITH @@ -246,7 +247,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 最终生成文件如如果不大于 1GB,则为:`result_0.csv`。 如果大于 1GB,则可能为 `result_0.csv, result_1.csv, ...`。 -4. 将 UNION 语句的查询结果导出到文件 `bos://bucket/result.txt`。指定导出格式为 PARQUET。使用 `my_broker` 并设置 hdfs 高可用信息。PARQUET 格式无需指定列分割符。 +4. 将 UNION 语句的查询结果导出到文件 `bos://bucket/result.txt`。指定导出格式为 PARQUET。使用 `my_broker` 并设置 HDFS 高可用信息。PARQUET 格式无需指定列分割符。 导出完成后,生成一个标识文件。 ```sql @@ -262,7 +263,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ); ``` -5. 将 select 语句的查询结果导出到文件 `s3a://${bucket_name}/path/result.txt`。指定导出格式为 csv。 +5. 将 Select 语句的查询结果导出到文件 `s3a://${bucket_name}/path/result.txt`。指定导出格式为 CSV。 导出完成后,生成一个标识文件。 ```sql @@ -289,7 +290,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 1. 不存在的path会自动创建 2. access.key/secret.key/endpoint需要和cos的同学确认。尤其是endpoint的值,不需要填写bucket_name。 -6. 使用 s3 协议导出到 bos,并且并发导出开启。 +6. 使用 S3 协议导出到 bos,并且并发导出开启。 ```sql set enable_parallel_outfile = true; @@ -307,8 +308,8 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 最终生成的文件前缀为 `my_file_{fragment_instance_id}_`。 -7. 使用 s3 协议导出到 bos,并且并发导出 session 变量开启。 - 注意:但由于查询语句带了一个顶层的排序节点,所以这个查询即使开启并发导出的 session 变量,也是无法并发导出的。 +7. 使用 S3 协议导出到 bos,并且并发导出 Session 变量开启。 + 注意:但由于查询语句带了一个顶层的排序节点,所以这个查询即使开启并发导出的 Session 变量,也是无法并发导出的。 ```sql set enable_parallel_outfile = true; @@ -324,7 +325,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ) ``` -8. 使用 hdfs 方式导出,将简单查询结果导出到文件 `hdfs://${host}:${fileSystem_port}/path/to/result.txt`。指定导出格式为 CSV,用户名为work。指定列分隔符为 `,`,行分隔符为 `\n`。 +8. 使用 HDFS 方式导出,将简单查询结果导出到文件 `hdfs://${host}:${fileSystem_port}/path/to/result.txt`。指定导出格式为 CSV,用户名为work。指定列分隔符为 `,`,行分隔符为 `\n`。 ```sql -- fileSystem_port默认值为9000 @@ -338,7 +339,7 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ); ``` - 如果Hadoop 集群开启高可用并且启用 Kerberos 认证,可以参考如下SQL语句: + 如果 Hadoop 集群开启高可用并且启用 Kerberos 认证,可以参考如下 SQL 语句: ```sql SELECT * FROM tbl @@ -359,10 +360,10 @@ parquet、orc文件格式拥有自己的数据类型,Doris的导出功能能 ); ``` - 最终生成文件如如果不大于 100MB,则为:`result_0.csv`。 - 如果大于 100MB,则可能为 `result_0.csv, result_1.csv, ...`。 + 最终生成文件如如果不大于 100 MB,则为:`result_0.csv`。 + 如果大于 100 MB,则可能为 `result_0.csv, result_1.csv, ...`。 -9. 将 select 语句的查询结果导出到腾讯云cos的文件 `cosn://${bucket_name}/path/result.txt`。指定导出格式为 csv。 +9. 将 Select 语句的查询结果导出到腾讯云 cos 的文件 `cosn://${bucket_name}/path/result.txt`。指定导出格式为 CSV。 导出完成后,生成一个标识文件。 ```sql --------------------------------------------------------------------- To unsubscribe, e-mail: commits-unsubscr...@doris.apache.org For additional commands, e-mail: commits-h...@doris.apache.org