Re: Filnk: Job leader for job id xxxx lost leadership

huweihua Wed, 20 Apr 2022 04:55:57 -0700

补充一个 case，检查下 hudi connector 是否使用了 OperatorCoordinator 来跟 hudi 进行一些交互，这部分操作是在 
JobMaster 主线程内的，如果耗时比较长会导致 TaskManager 跟 JobMaster 断开链接.


> 2022年4月20日 下午6:42，Zhanghao Chen <zhanghao.c...@outlook.com> 写道：
> 
> 出现 Job leader for job id xxxx lost 说明是 jm leader 在 zk 上的 session timeout 
> 了。可能的原因有
> 
>  1.  JM 和 ZK 网络连接有抖动，ZK 连接进入 suspended，并且你没有配置容忍 zk 连接 suspended（1.14 及以上版本配置 
> high-availability.zookeeper.client.tolerate-suspended-connections 参数）或者配了但是 
> session timeout 时间设的太短触发丢主
>  2.  JM 确实经常挂
>  3.  JM GC 很严重，导致了和 zk 连接有问题进入 suspended 状态
> 
> Best,
> Zhanghao Chen
> ________________________________
> From: magic <guanpeixi...@foxmail.com>
> Sent: Wednesday, April 20, 2022 17:49
> To: user-zh <user-zh@flink.apache.org>
> Subject: Filnk: Job leader for job id xxxx lost leadership
> 
> Hi，all
> 我们在使用Flink 消费kafka数据写入hudi时，经常会报错：Job leader for job id xxxx 
> lost&nbsp;&nbsp;leadership， 但是同集群 其他flink 任务就没问题，请教下前辈们，这是什么原因呢，感觉不太像zk的问题

Re: Filnk: Job leader for job id xxxx lost leadership

回复