出现 Job leader for job id xxxx lost 说明是 jm leader 在 zk 上的 session timeout 了。可能的原因有
1. JM 和 ZK 网络连接有抖动,ZK 连接进入 suspended,并且你没有配置容忍 zk 连接 suspended(1.14 及以上版本配置 high-availability.zookeeper.client.tolerate-suspended-connections 参数)或者配了但是 session timeout 时间设的太短触发丢主 2. JM 确实经常挂 3. JM GC 很严重,导致了和 zk 连接有问题进入 suspended 状态 Best, Zhanghao Chen ________________________________ From: magic <guanpeixi...@foxmail.com> Sent: Wednesday, April 20, 2022 17:49 To: user-zh <user-zh@flink.apache.org> Subject: Filnk: Job leader for job id xxxx lost leadership Hi,all 我们在使用Flink 消费kafka数据写入hudi时,经常会报错:Job leader for job id xxxx lost leadership, 但是同集群 其他flink 任务就没问题,请教下前辈们,这是什么原因呢,感觉不太像zk的问题