Re: Flink 1.11版本LeaseRenewer线程不释放

zilong xiao Tue, 08 Dec 2020 02:21:54 -0800

作业数据流是 kafka -> flink ->
http/prometheus，目前这类型的作业很多，但是就只有那几个有问题，而且是必现，每次都只能重启，然后看着线程数上涨。。 我再debug看看~


Paul Lam <[email protected]> 于2020年12月8日周二 下午6:00写道：

> Hi,
>
> 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话，的确是非常奇怪。
>
> Best,
> Paul Lam
>
> > 2020年12月8日 11:03，zilong xiao <[email protected]> 写道：
> >
> > Hi Paul,
> >    线程名称是一模一样的，都是user1@cluserA，HDFS client版本对于用户来说是透明的，作业使用的是Flink
> >
> 1.11版本，该Flink版本使用HDFS版本好像是2.8.1，在Flink中和集群有持续交互的就只能想到checkpoint，开了DEBUG日志也没能找到root
> > cause。。
> >
> >    另外 您说的“线程个数应该和用到的 HDFS 集群数目相同”不是很理解，作业只能提交到一个具体的集群吧？
> >
> > Paul Lam <[email protected]> 于2020年12月8日周二 上午10:45写道：
> >
> >> 我记得 LeaseRenewer 是 JVM 级别的，线程个数应该和用到的 HDFS 集群数目相同。
> >>
> >> 你看看它们具体的线程名是不是完全相同（比如都是 user1@cluserA）？还有 HDFS client 的版本是什么？
> >>
> >> Best,
> >> Paul Lam
> >>
> >>> 2020年12月7日 18:11，zilong xiao <[email protected]> 写道：
> >>>
> >>> 在生产中发现有个别Flink SQL 1.11作业的container线程数很高，查看Thread
> Dump发现有很多名为LeaseRenewer
> >>> 的线程处于TIMED_WAITING状态，目前只能复现其现象，但是无法定位原因，不知道社区是否有类似经历的小伙伴呢？
> >>>
> >>> Flink version: 1.11
> >>> State backend：filesystem
> >>> checkpoint interval: 60s
> >>
> >>
>
>

Re: Flink 1.11版本LeaseRenewer线程不释放

回复