补充一个 case,检查下 hudi connector 是否使用了 OperatorCoordinator 来跟 hudi 进行一些交互,这部分操作是在 JobMaster 主线程内的,如果耗时比较长会导致 TaskManager 跟 JobMaster 断开链接.
> 2022年4月20日 下午6:42,Zhanghao Chen <zhanghao.c...@outlook.com> 写道: > > 出现 Job leader for job id xxxx lost 说明是 jm leader 在 zk 上的 session timeout > 了。可能的原因有 > > 1. JM 和 ZK 网络连接有抖动,ZK 连接进入 suspended,并且你没有配置容忍 zk 连接 suspended(1.14 及以上版本配置 > high-availability.zookeeper.client.tolerate-suspended-connections 参数)或者配了但是 > session timeout 时间设的太短触发丢主 > 2. JM 确实经常挂 > 3. JM GC 很严重,导致了和 zk 连接有问题进入 suspended 状态 > > Best, > Zhanghao Chen > ________________________________ > From: magic <guanpeixi...@foxmail.com> > Sent: Wednesday, April 20, 2022 17:49 > To: user-zh <user-zh@flink.apache.org> > Subject: Filnk: Job leader for job id xxxx lost leadership > > Hi,all > 我们在使用Flink 消费kafka数据写入hudi时,经常会报错:Job leader for job id xxxx > lost leadership, 但是同集群 其他flink 任务就没问题,请教下前辈们,这是什么原因呢,感觉不太像zk的问题