补充一个 case,检查下 hudi connector 是否使用了 OperatorCoordinator 来跟 hudi 进行一些交互,这部分操作是在 
JobMaster 主线程内的,如果耗时比较长会导致 TaskManager 跟 JobMaster 断开链接.

> 2022年4月20日 下午6:42,Zhanghao Chen <zhanghao.c...@outlook.com> 写道:
> 
> 出现 Job leader for job id xxxx lost 说明是 jm leader 在 zk 上的 session timeout 
> 了。可能的原因有
> 
>  1.  JM 和 ZK 网络连接有抖动,ZK 连接进入 suspended,并且你没有配置容忍 zk 连接 suspended(1.14 及以上版本配置 
> high-availability.zookeeper.client.tolerate-suspended-connections 参数)或者配了但是 
> session timeout 时间设的太短触发丢主
>  2.  JM 确实经常挂
>  3.  JM GC 很严重,导致了和 zk 连接有问题进入 suspended 状态
> 
> Best,
> Zhanghao Chen
> ________________________________
> From: magic <guanpeixi...@foxmail.com>
> Sent: Wednesday, April 20, 2022 17:49
> To: user-zh <user-zh@flink.apache.org>
> Subject: Filnk: Job leader for job id xxxx lost leadership
> 
> Hi,all
> 我们在使用Flink 消费kafka数据写入hudi时,经常会报错:Job leader for job id xxxx 
> lost&nbsp;&nbsp;leadership, 但是同集群 其他flink 任务就没问题,请教下前辈们,这是什么原因呢,感觉不太像zk的问题

回复