状态文件的数量与很多因素有关,比如作业的并行度,单条 state kv 的数据大小,状态的更新频率,key 的粒度等都有关系。
Best, Guojun On Wed, Mar 22, 2023 at 9:43 AM Shammon FY <zjur...@gmail.com> wrote: > 那可能需要确认一下这些状态 > 1. 是否确实属于这个作业的状态 > 2. 这些状态是成功的checkpoint还是失败的checkpoint > 3. 是否清理checkpoint出现了问题,排查下有没有相关错误日志 > > Best, > Shammon FY > > On Wed, Mar 22, 2023 at 8:51 AM casel.chen <casel_c...@126.com> wrote: > > > 检查过了,当前`state.checkpoints.num-retained`参数值是3 > > > > > > 在 2023-03-21 20:05:35,"Shammon FY" <zjur...@gmail.com> 写道: > > >Hi > > > > > > >你可以检查一下checkpoint配置`state.checkpoints.num-retained`,是否保存的checkpoint数量太多了? > > > > > >Best, > > >Shammon FY > > > > > > > > >On Tue, Mar 21, 2023 at 11:55 AM casel.chen <casel_c...@126.com> wrote: > > > > > >> 有一个flink cdc实现多表关联打宽的flink作业,作业状态达到20GB左右,远端状态存储用的是aliyun > > >> > > > oss。今天作业运行失败打算手动从checkpoint恢复时发现保存作业状态的checkpoint目录(share目录)无法通过浏览器打开,后来使用命令行list了一下该目录下的文件有多达上万个文件。该flink作业用的是rocksdb > > >> state > > >> > > > backend并开启了增量checkpoint。请问有什么办法可以解决这个问题吗?share目录下这么多文件是因为增量checkpoint遗留下来的吗? > > >