回复:退订

2024-04-14 文章 willluzheng
退订 回复的原邮件 | 发件人 | jimandlice | | 发送日期 | 2024年04月13日 19:50 | | 收件人 | user-zh | | 主题 | 退订 | 退订 jimandlice jimandl...@163.com  

Flink流批一体应用在实时数仓数据核对场景下有哪些注意事项?

2024-04-14 文章 casel.chen
我最近在调研Flink实时数仓数据质量保障,需要定期(每10/20/30分钟)跑批核对实时数仓产生的数据,传统方式是通过spark作业跑批,如Apache DolphinScheduler的数据质量模块。 但这种方式的最大缺点是需要使用spark sql重写flink sql业务逻辑,难以确保二者一致性。所以我在考虑能否使用Flink流批一体特性,复用flink sql,只需要将数据源从cdc或kafka换成hologres或starrocks表,再新建跑批结果表,最后只需要比较相同时间段内实时结果表和跑批结果表的数据即可。不过有几点疑问: 1. 原实时flink sql表定义中包含的w