大家早:
       最近在使用mysql flink cdc to doris时, 发现个问题,  在flink多schema进行join, group 
by等多个算子计算时, doris flink connector会不定时多次向doris导入数据, 
导致聚合模型(sum)计算不准确.(flink1.13.6 doris1.0.0 rc03, connector版本均对应)
如以下示例可以看出, 当flink由多个schema join group by等算子计算后(flink显示有20左右个算子), flink任务执行时, 
观察数据, 发现update_time在不断变化, update_count也同时在sum聚合, 
insert操作执行了96次才将这条数据中mo_num计算准确.
Doris 表结构示例:
{

tenant_code AGGREGATE KEY,

mo_num REPLACE,

update_time MAX,

update_count SUM default 1
}
数据示例:
code
mo_num
xxxx
update_time
update_count
000032
123
其他业务数据
2022-05-19 19:00:28
96


问题:

1.     这种情况是否正常? 期望是一条数据计算完直接插入, 而不是多次插入, 现在这种情况无法使用sum等聚合模型?

2.     如果有这样的场景, 如何避免? 开发同学能否从导入机制的角度帮忙解答一下?

Reply via email to