strict_mode
Stream Load 导入可以开启 strict mode 模式。开启方式为在 HEADER 中声明 strict_mode=true 。默认的
strict mode 为关闭。strict mode 模式的意思是:对于导入过程中的列类型转换进行严格过滤。严
max_filter_ratio
导入任务的最大容忍率,默认为0容忍,取值范围是0~1。当导入的错误率超过该值,则导入失败。
如果用户希望忽略错误的行,可以通过设置这个参数大于 0,来保证导入可以成功。
计算公式为:
(dpp.abnorm.ALL / (dpp.abnorm.ALL + dpp.norm.ALL ) ) > max_filter_ratio
dpp.abnorm.ALL 表示数据质量不合格的行数。如类型不匹配,列数不匹配,长度不匹配等等。
dpp.norm.ALL 指的是导入过程中正确数据的条数。可以通过 SHOW LOAD 命令查询导入任务的正确数据量。
原始文件的行数 = dpp.abnorm.ALL + dpp.norm.ALL
王磊
wang...@flywheels.com
---- 回复的原邮件 ----
发件人 Xie Josh<joshxi...@outlook.com>发送日期 2022年08月1日 13:15收件人
dev@doris.apache.org<dev@doris.apache.org>主题 flink connector
在strict_mode下过滤数据的问题
HI, 大家好
我在使用flink_connector 导入数据时, 会时长出现too many filter rows的问题,
我了解到是因为FE配置的strict=true, 并且我的source数据字符串字段中可能存在换行\n, 制表符\t等导致的该问题,
目前我是在sql中replace替换来解决此问题, 但是strict模式下如果一条数据出现此问题就会导致整个任务的失败…
我想咨询开发者在使用中是否也存在此种情况? 如何避免? doris后续有没有考虑对此种场景进行自动转换? 或者说考虑strict的阈值问题?
祝好!