Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

xiao cai Tue, 01 Sep 2020 05:52:33 -0700

Hi shizk233：
我这边也复现了你说的情况，一模一样。
       
可以尝试使用定时调度任务检查flink任务的执行情况，当不再处于运行状态时，主动调用pushgateway的delete方法来删除pushgetway的metrics。





 原始邮件 
发件人: shizk233<[email protected]>
收件人: [email protected]<[email protected]>
发送时间: 2020年9月1日(周二) 19:10
主题: Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据


Hi Xiao, 我这边实践过程中发现，该参数只能删除jobmanager对应的metrics group，不能删除tm的。 
我们开启了randomJobNameSuffix，该参数会让JM和TM的metrics信息分属不同metrics group。 感觉这可能是一个bug? 
xiao cai <[email protected]> 于2020年9月1日周二 下午4:57写道： > Hi: > 
可以试试在flink-conf.yaml中添加： > metrics.reporter.promgateway.deleteOnShutdown: true 
> > > Best, > Xiao > 原始邮件 > 发件人: bradyMk<[email protected]> > 收件人: 
user-zh<[email protected]> > 发送时间: 2020年9月1日(周二) 16:50 > 主题: Re: 
回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据 > > > 
您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长； > 
如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样： > 
flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？ ----- Best Wishes > 
-- Sent from: http://apache-flink.147419.n8.nabble.com/