你好

1.Flink中(JM)JobMaster会监控各个Task的状态,如果Task由于某些原因失败了,JM触发failover,并且决策哪些task应该被重新启动。当然,如果JM挂掉的话,Flink支持配置高可用(HA),通过持久化一些信息到外部系统,从而做到通过standby
JM正确接管作业。
2.无论单个Task挂掉还是TaskManager挂掉failover流程都可以正确处理,处理流程基本是一致的,TaskManager挂掉可以认为是上面所有被调度上去的Task
fail了。

Best regards,

Weijie


李义 <[email protected]> 于2022年12月9日周五 15:28写道:

> 你好,我们团队在调研Flink相关技术。关于故障重启策略有些困惑
> Task 故障恢复 | Apache Flink
>
> 1.故障重启是通过什么技术手段触发的,我搜查了很多资料 ,都仅提到重启策略是怎么配置的,但是谁触发的? 它不可能挂掉了自己重启吧?
> 2.故障重启是Task级别还是作用于TaskManager服务?
>
> 感谢并支持Flink开发者们的工作,Thanks!
>

回复