(无主题)

2023-06-12 文章 Paul
在flink处理函数中定义一个状态变量,比如private ValueState vs;这个状态变量是否需要用transient来修饰,为什么呢?以及什么情况下flink代码中需要用transient来修饰变量,什么情况下不用transient来修饰?请大家指教

Re: 如何每五分钟统计一次当天某个消息的总条数

2019-03-04 文章 Paul Lam
Hi, 你可以试下设置 event time 窗口为一天,然后设置 processing time timer 来定时每 5 分钟触发输出当天最新的结果。 Best, Paul Lam > 在 2019年3月5日,13:16,张作峰 写道: > > 大家好! > 请教下诸位大牛,如何使用stream api每五分钟统计一次当天某个消息的总条数? > 谢谢!

Re: 方案询问

2019-04-01 文章 Paul Lam
Hi, 推荐可以维护两个 MapState 分别缓存尚未匹配的两种订单。一条订单数据进来首先查找另一种订单的 MapState,若找到则输出合并的数据并删除对应的 entry,否则放入所属订单类型的 MapState。 Best, Paul Lam > 在 2019年4月2日,13:46,1900 <575209...@qq.com> 写道: > > 现在有个需求,从kafka接收订单信息,每条订单信息有1-2条数据(一般第一条是订单初始状态数据,第二条是订单终态数据);时间间隔不等(一般5秒以内), > 如何能将数据进行合并,最终合并成一条数

Re: Weekly Community Update 2019/33, Personal Chinese Version

2019-08-18 文章 Paul Lam
Hi Tison, Big +1 for the Chinese Weekly Community Update. The content is well-organized, and I believe it would be very helpful for Chinese users to get an overview of what’s going on in the community. Best, Paul Lam > 在 2019年8月19日,12:27,Zili Chen 写道: > > Hi community, > &

Re: HDFS_DELEGATION_TOKEN自动过期问题

2019-12-10 文章 Paul Lam
tml#kerberos-based-security> Best, Paul Lam > 在 2019年12月10日,11:03,hss <1090948...@qq.com> 写道: > > 各位好! > > > hadoop集群开启了Kerberos安全认证,以 Flink on Yarn > 的Per-job模式提交任务。 只要是超过七天之后HDFS_DELEGATION_TOKEN自动过期, checkpoint执行不成功, > 有遇到这种问题的? &g

Re: [ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Paul Lam
Congrats, Dian! Best, Paul Lam > 在 2020年1月17日,10:49,tison 写道: > > Congratulations! Dian > > Best, > tison. > > > Zhu Zhu mailto:reed...@gmail.com>> 于2020年1月17日周五 > 上午10:47写道: > Congratulations Dian. > > Thanks, > Zhu Zhu > > hailon

Re: Flink JOB_MANAGER_LEADER_PATH Znode 疑似泄漏问题

2020-06-28 文章 Paul Lam
/FLINK-10333 <https://issues.apache.org/jira/browse/FLINK-10333> Best, Paul Lam > 2020年6月28日 12:29,于汝国 写道: > > > > > flink本身不提供cancel > job后清理zookeeper上残留znode的功能或机制,包括hdfs上的部分数据,如果想清除的话,可手动操作或者自实现。 > > > > > > > > > > >

Re: flink基于yarn的HA次数无效,以及HA拉起的任务是否可以重用state

2020-07-02 文章 Paul Lam
判断 Attempt 失败的标准是 Flink 通过 AMRMClientAsyncImpl 通知 YARN RM Application 失败并注销自己,所以 kill jm 是不算的。 Best, Paul Lam > 2020年7月2日 11:09,liangji 写道: > > 我之前配置了HA,也配置了flink中yarn-attempts=2,结果是kill jm进程可以无限重启 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink从SavePoint启动任务,修改的代码不生效

2020-07-06 文章 Paul Lam
估计你是用同一个 Kafka Source 消费 A B 两个 Topic? 如果是,看起来像是 Kafka Connector 早期的一个问题。 作业停止的时候,Topic B 的 partition offset 被存储到 Savepoint 中,然后在恢复的时候,尽管代码中 Topic B 已经被移除,但它的 partition offset 还是被恢复了。 这个问题在后来的版本,估计是 1.8 或 1.9,被修复了。 Best, Paul Lam > 2020年7月6日 20:55,milan183sansiro 写道: > > 你好: >

Re: flink1.11.0 java.lang.NoSuchMethodError: org.apache.flink.streaming.connectors.kafka.internal.KafkaConsumerThread

2020-07-14 文章 Paul Lam
Hi, 看起来是 Kafka connector class 冲突了,flink-connector-kafka_2.12-1.11.0.jar 和 flink-connector-kafka-0.10_2.12-1.11.0.jar 不能同时加到 classpath 里。 Best, Paul Lam > 2020年7月15日 10:48,dmt312_2010 写道: > > Hi, > 大家好,请教各位大佬一个问题,我在验证flink 1.11.0时,遇到如下问题: > > > 报错信息: > > >

Re: Flink yarn session exception

2020-07-16 文章 Paul Lam
日志里说得比较清楚了,classpath 里没有 Hadoop 的 lib。可以参考这个文档 [1] 来配置你的环境。 1. https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html <https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html> Best, Paul Lam > 2020年7月16日 15:46,Rain

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Paul Lam
Congrats, Dian! Best, Paul Lam > 2020年8月27日 17:42,Marta Paes Moreira 写道: > > Congrats, Dian! > > On Thu, Aug 27, 2020 at 11:39 AM Yuan Mei <mailto:yuanmei.w...@gmail.com>> wrote: > Congrats! > > On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang &

Re: Flink 涉及到 state 恢复能从 RocketMQ 直接转到 Kafka 吗?

2020-09-02 文章 Paul Lam
可以,保证 RokcetMQ source 算子的 uid 和原本的 Kafka source 算子的 uid 不同就行。 另外启动要设置参数 -n 或 —allowNonRestoredState 。 Best, Paul Lam > 2020年9月2日 17:21,wangl...@geekplus.com 写道: > > > 有一个 flink streaming 的程序,读 RocketMQ,中间有一些复杂度计算逻辑用 RocksDB state 存储. > 程序有小的更新直接 cancel -s 取消再 run -s 恢复 > &

Re: Flink如何实现至多一次(At Most Once)

2020-09-03 文章 Paul Lam
如果每次都从最新的数据开始读的话,关掉 checkpoint 是可以达到 At Most Once。 另外建议还要看看 sink 有没有自动重试机制,可能造成数据重复。 Best, Paul Lam > 2020年9月2日 19:16,Tianwang Li 写道: > > 我们有一些场景,对实时性要求高,同时对数据重复会有比较大大影响。 > 我想关闭checkpoint,这样是不是能不能保证“至多一次” (At Most Once) ? > 这里会不会有什么坑

Re: flink table Kafka 重新连接的问题

2020-09-10 文章 Paul Lam
具体是什么样的 exception?Kafka 的重连和 Task 重启是不同的事情。前者取决于 Kafka 的配置和异常的类型,后者取决于 Flink 的重启策略。 Best, Paul Lam > 2020年9月11日 11:42,marble.zh...@coinflex.com.invalid > 写道: > > 自己顶一下, 有人给些建议吗? > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 如何获取flink webUI上面的DAG图

2020-10-13 文章 Paul Lam
Hi, 可以利用 Flink 的 plan visualizer,见[1] 1. https://ci.apache.org/projects/flink/flink-docs-stable/dev/execution_plans.html Best, Paul Lam hailongwang <18868816...@163.com> 于2020年10月12日周一 下午11:38写道: > Hi, > 你是想要自己做一个产品,将图显示在Web上?我们是只拿 DAG 中 json 值,然后前端进行处理的。 > 希望能帮助到你~ > > &

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-07 文章 Paul Lam
我记得 LeaseRenewer 是 JVM 级别的,线程个数应该和用到的 HDFS 集群数目相同。 你看看它们具体的线程名是不是完全相同(比如都是 user1@cluserA)?还有 HDFS client 的版本是什么? Best, Paul Lam > 2020年12月7日 18:11,zilong xiao 写道: > > 在生产中发现有个别Flink SQL 1.11作业的container线程数很高,查看Thread Dump发现有很多名为LeaseRenewer > 的线程处于TIMED_WAITING状态,目前只能复现其现象,但是无法定位原

Re: Flink 1.11版本LeaseRenewer线程不释放

2020-12-08 文章 Paul Lam
Hi, 我之前说的多个集群的情况主要指写入数据到 HDFS。如果只有 checkpoint 依赖 HDFS 而出现这种情况的话,的确是非常奇怪。 Best, Paul Lam > 2020年12月8日 11:03,zilong xiao 写道: > > Hi Paul, >线程名称是一模一样的,都是user1@cluserA,HDFS client版本对于用户来说是透明的,作业使用的是Flink > 1.11版本,该Flink版本使用HDFS版本好像是2.8.1,在Flink中和集群有持续交互的就只能想到checkpoint,开了D

Re: [ANNOUNCE] Apache Flink 1.11.3 released

2020-12-18 文章 Paul Lam
Well done! Thanks to Gordon and Xintong, and everyone that contributed to the release. Best, Paul Lam > 2020年12月18日 19:20,Xintong Song 写道: > > The Apache Flink community is very happy to announce the release of Apache > Flink 1.11.3, which is the third bugfix release for the

Re: 请问,flink支持StreamFileSink在将pending文件转为finished的时候做一些操作吗

2021-02-03 文章 Paul Lam
如果使用 RollOnCheckpoint 的文件滚动策略,可以开发一个 UDF 实现 CheckpointListener 接口,在 notifyCheckpointComplete 函数里面发消息。不过要注意这个消息可能会重复。 Best, Paul Lam > 2021年2月3日 17:36,上官 <17635713...@163.com> 写道: > > 各位大神,我的工作需要Flink将DataStream中的数据写入到HDFS上,我需要在flink将写入文件变为下游可读的时候,发送一个消息到消息队列,请问Flink支持这种操作吗

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
Hi, Debezium 支持 MongoDB CDC[1],可以了解下。 [1] https://debezium.io/documentation/reference/connectors/mongodb.html Best, Paul Lam > 2021年2月24日 16:23,Evan 写道: > > > 有人完整的实现Flink的MongodbSource吗 > 如题,现在有一个需求,需要Flink能实时读取MongoDB中数据变化 > >

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
据我所知暂时没有。不过我所在公司内部有很多 mongodb 使用,因此我们也有计划开发 mongodb connector(主要是作为 sink)。 之前因为等 FLIP-143 新接口搁置了一下计划,最近可以重启。 如果顺利的话,我们预计放到 bahir 上或贡献给 mongo 社区(考虑到 flink 社区现在对新增 connector 到主 repo 比较谨慎)。 Best, Paul Lam > 2021年2月24日 18:16,林影 写道: > > 请问flink的mongodb connector这块后续有计划吗 > > Evan 于

Re: 社区有人实现过Flink的MongodbSource吗?

2021-02-24 文章 Paul Lam
Hi Even, 我没有实际使用过,不过根据 Debezium 文档 [1] 和我了解到的用户反馈,存量读取和实时增量读取都是支持的。 [1] https://debezium.io/documentation/reference/connectors/mongodb.html#mongodb-streaming-changes Best, Paul Lam > 2021年2月24日 17:08,Evan 写道: > > 好的,十分感谢,我调研一下,之前网上搜了一些资料,实现的只能批量读取,读完程序就停止了,不能一直实时的增量读取 > &g

Re: Flink1.17.1 yarn token 过期问题

2023-10-26 文章 Paul Lam
Hello, 这个问题解决了吗?我遇到相同的问题,还没定为到原因。 Best, Paul Lam > 2023年7月20日 12:04,王刚 写道: > > 异常栈信息 > ``` > > 2023-07-20 11:43:01,627 ERROR > org.apache.flink.runtime.taskexecutor.TaskManagerRunner [] - Terminating > TaskManagerRunner with exit code 1. > org.apache.flink.

Re: [ANNOUNCE] Apache Flink 1.18.0 released

2023-10-26 文章 Paul Lam
Finally! Thanks to all! Best, Paul Lam > 2023年10月27日 03:58,Alexander Fedulov 写道: > > Great work, thanks everyone! > > Best, > Alexander > > On Thu, 26 Oct 2023 at 21:15, Martijn Visser > wrote: > >> Thank you all who have contributed! >> >

Re: [ANNOUNCE] Apache Flink CDC 3.1.1 released

2024-06-18 文章 Paul Lam
Well done! Thanks a lot for your hard work! Best, Paul Lam > 2024年6月19日 09:47,Leonard Xu 写道: > > Congratulations! Thanks Qingsheng for the release work and all contributors > involved. > > Best, > Leonard > >> 2024年6月18日 下午11:50,Qingsheng Ren 写道: >> &

Re: 1.12 yarn-per-job提交作业失败

2021-03-14 文章 Paul Lam
从 Flink 1.12 开始,-yqu 等 YARN 相关的参数被移除了,可以使用 [1] 来代替。 [1 ]https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue <https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#yarn-application-queue> Best, Pa

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 Paul Lam
关于 chk 下只有 _metadata 的问题,大概是因为 state 比较小,被嵌入到 _medata 文件里了。可以参考这个配置项 [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#state-backend-fs-memory-threshold Best, Paul Lam > 2021年4月1日 16:25,lp <973182...@qq.com> 写道: > > 好的,谢谢 > >

Re: Flink-kafka-connector Consumer配置警告

2021-04-19 文章 Paul Lam
这个是 Kafka client 的警告。这个配置项是 Flink 加进去的,Kafka 不认识。 Best, Paul Lam > 2021年4月18日 19:45,lp <973182...@qq.com> 写道: > > flink1.12正常程序中,有如下告警: > > 19:38:37,557 WARN org.apache.kafka.clients.consumer.ConsumerConfig > > [] - The configuration 'flink.par

Re: flink状态查看工具

2021-05-26 文章 Paul Lam
可以使用 State Processor [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/libs/state_processor_api/ Best, Paul Lam > 2021年5月26日 09:14,casel.chen 写道: > > 我有一个flink sql写的数据实时同步作业,从mysql binlog cdc消费发到mongodb,仅此而已,没有lookup,也没有join。 > 查看checkpoint页显示状态有17MB,che

Re: Flink Yarn Session模式,多任务不同Kerberos认证问题

2021-07-29 文章 Paul Lam
现在是不能共享的。Flink JobManager 的 principal 在启动时就确定了。 Best, Paul Lam > 2021年7月30日 14:46,Ada Luna 写道: > > 在Flink Yarn Session中每次提交Job都更换principal。因为要做权限隔离,每个用户有自己的principal。 > > 现在 Flink Session模式是不是无法满足多个principal共享一个Flink Session集群,只能走perjob。 > 或者每个持有独立principal的用户独享一个Session。

Re: 如何给flink的输出削峰填谷?

2022-01-25 文章 Paul Lam
Hi, 如果是 DataStream 应用的话,最简单的方式是给 sink 之前加个 throttle 算子,比如 guava RateLimiter。 SQL 应用的话可能要实现个 UDF 来做。 Best, Paul Lam > 2022年1月26日 02:11,Jing 写道: > > Hi Flink中文社区, > > 我碰到一个这样的问题,我的数据库有write throttle, 我的flink > app是一个10分钟窗口的聚合操作,这样导致,每10分钟有个非常大量的写请求。导致数据库的sink有时候会destroy. >

Re: flink table store

2022-04-07 文章 Paul Lam
@tison https://nightlies.apache.org/flink/flink-table-store-docs-release-0.1/docs/try-table-store/quick-start/ <https://nightlies.apache.org/flink/flink-table-store-docs-release-0.1/docs/try-table-store/quick-start/> Best, Paul Lam > 2022年4月7日 15:05,tison 写道: > > 我有点好奇官网看

Re: Flink on yarn ,并行度>1的情况下,怎么获取springboot的bean?

2022-04-22 文章 Paul Lam
听起来是在 Flink 里启动 springboot? 很有意思的架构,有一点点类似 statefun 了。可以说说这么做的背景吗? 另外请附带上 flink 的部署模式和版本信息,这样大家才好判断问题在哪里。 Best, Paul Lam > 2022年4月22日 16:30,duwenwen 写道: > > 您好: >首先很感谢您能在百忙之中看到我的邮件。我是一个写代码的新手,在使用flink框架过程中我遇到了一些问题,希望能得到您的解答。 > 由于需求要求,我需要将springboot和flink结合起来使用,我在open方法中

[ANNOUNCE] Apache Flink 1.15.3 released

2022-11-25 文章 Fabian Paul
The Apache Flink community is very happy to announce the release of Apache Flink 1.15.3, which is the third bugfix release for the Apache Flink 1.15 series. Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data streaming a

Re: cumulate函数和比较函数连用报错

2024-10-29 文章 Paul Lam
抱歉挖了这么旧的邮件。请问这个问题解决了吗?我在 flink 1.14 上遇到相同的问题。 Best, Paul Lam > 2021年8月20日 10:56,李航飞 写道: > > 你好: > 具体场景是对agg结果之前进行过滤,现在通过create view进行提取过滤了 > 现在我想通过DynameicTable的方式,以upsert写入redis里面 > > > > > 在 2021-08-20 10:31:18,"Caizhi Weng" 写道: >> Hi! >