flink run 提交任务到yarn 报Cannot load user class: org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer

2021-08-30 文章 Wayne
我的执行命令是 flink run -m yarn-cluster -yd -yjm 1024m -ytm 1024m -ys 1 -ynm xxx -C file:///xxx/flink-connector-kafka_2.12-1.12.2.jar -C file:///xxx/flink-sql-avro-1.12.2.jar ... 提交到生产集群上提示 org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot load user class: org.apache.flink

Re: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中

2021-08-30 文章 wukon...@foxmail.com
能具体说下如何实现吗? 我用cdc 能实现什么,我现在想让两个Insert Sql 保持到一个事务里, 要么全成功,要么全失败,目前查看Flink 文档 并没有发现相关的解释 wukon...@foxmail.com 发件人: jie han 发送时间: 2021-08-26 21:36 收件人: user-zh 主题: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中 HI: 可以尝试下使用flink cdc 的方式写入到第二个kafka里面呀 悟空 于2021年8月26日周四 下午1:54写道: > 我目前用的是fli

Re: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中

2021-08-30 文章 wukon...@foxmail.com
Hi: 我理解这种方式, 目前我只是想让先插入数据到Mysql 然后再通过通知到下游,来查询Mysql 进行数据etl 不知道大家如何通过SQL来实现这一逻辑 wukon...@foxmail.com 发件人: Shuo Cheng 发送时间: 2021-08-30 10:19 收件人: user-zh 主题: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中 你好, 你说的这种控制写入的方式在同一个 Flink SQL job 里是无法实现的. 控制数据是否写入某个 Sink,可以看看是否从逻辑上能在 Sink 前加一个 Fil

Re:Re: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中

2021-08-30 文章 东东
对于Exactly-Once模式下的checkpoint,如果sink端支持两段式事务,应该就可以做到一个sink失败,整个checkpoint失败的。 不过JDBC sink支持Exactly-Once是1.13.0以后的事情了,建议检查一下你的版本和配置 在 2021-08-30 16:27:24,"wukon...@foxmail.com" 写道: >Hi: > 我理解这种方式, 目前我只是想让先插入数据到Mysql 然后再通过通知到下游,来查询Mysql 进行数据etl 不知道大家如何通过SQL来实现这一逻辑 > > > >wukon...@foxma

回复: Re: 基于flink 1.12 如何通过Flink SQL 实现 多sink端 在同一个事务中

2021-08-30 文章 wukon...@foxmail.com
我目前大概会采用 Shuo Cheng 提到的, 使用先sink 到Mysql, 再启一个任务 cdc mysql 中的表,这样能保证插入成功后的数据。 我目前使用的是flink 1.12 版本 如果是多端sink 比如 sink db 同时sink kafka ,flink 在sink db 失败,依旧会sink kafka 但是会因为异常,发生tm 重启,会根据自定义重启策略,一直到最后 整个job fail over 掉。 wukon...@foxmail.com 发件人: 东东 发送时间: 2021-08-30 16:50 收件人: user-zh 主题: Re:Re:

Re: Flink 从checkpoint恢复时,部分状态没有正确恢复

2021-08-30 文章 Benchao Li
Hi xingxing, 看起来你可能也遇到了这个bug了。 我们遇到过一个bug是这样的,在group by的多个字段里面,如果有2个及以上变长字段的话,会导致底层的BinaryRow序列化 的结果不稳定,进而导致状态恢复会错误。 先解释下变长字段,这个指的是4byte存不下的数据类型,比如典型的varchar、list、map、row等等; 然后再解释下这个结果不稳定的原因,这个是因为在底层的代码生成里面有一个优化,会按照类型进行分组,然后进行优化, 但是这个分组的过程用的是一个HashMap[1],会导致字段顺序不是确定性的,有时候是这个顺序,有时候又是另外一个顺序, 导致最终的Bi

Re: Flink 从checkpoint恢复时,部分状态没有正确恢复

2021-08-30 文章 Benchao Li
这个问题已经在1.12中修复了,参考: https://issues.apache.org/jira/browse/FLINK-18688 Benchao Li 于2021年8月30日周一 下午7:49写道: > Hi xingxing, > > 看起来你可能也遇到了这个bug了。 > 我们遇到过一个bug是这样的,在group by的多个字段里面,如果有2个及以上变长字段的话,会导致底层的BinaryRow序列化 > 的结果不稳定,进而导致状态恢复会错误。 > 先解释下变长字段,这个指的是4byte存不下的数据类型,比如典型的varchar、list、map、row等等; > 然后再

flink keyby????

2021-08-30 文章 cs
flink??keybykey??tasktask??id

??????flink keyby????

2021-08-30 文章 JasonLee
hi KeyGroupStreamPartitioner#selectChannel . Best JasonLee ??2021??8??30?? 22:34??cs<58683...@qq.com.INVALID> ?? flink??keybykey??tasktask??id

退订

2021-08-30 文章 xiaobo77
退订

Re: flink run 提交任务到yarn 报Cannot load user class: org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer

2021-08-30 文章 Caizhi Weng
Hi! -C 要求提供的路径必须在集群的所有节点都能访问。如果提供的是 file://,那么集群的所有节点的这个路径下都要有对应文件。可以把文件放在 hdfs 上然后 -C 指定 hdfs:// 试试。 Wayne <1...@163.com> 于2021年8月30日周一 下午3:13写道: > 我的执行命令是 > flink run -m yarn-cluster -yd -yjm 1024m -ytm 1024m -ys 1 -ynm xxx -C > file:///xxx/flink-connector-kafka_2.12-1.12.2.jar -C > file:///x

Re: flink oss ha

2021-08-30 文章 Yun Tang
Hi 这个看上去更像是oss配置的问题,你能使用目前配置的 oss.endpoint,accessKeyId以及accessKeySecret 结合ossutil等工具访问对应的 oss://bucket-logcenter/flink-state/flink-session-recovery 么? 祝好 唐云 From: dker eandei Sent: Monday, August 30, 2021 12:36 To: user-zh@flink.apache.org Subject: 回复: flink os

Re: flink run -d -m yarn-cluster 提交任务到yarn集群不成功

2021-08-30 文章 龙逸尘
Hi Wayne, 可以尝试下指定 HADOOP_CONF_DIR export HADOOP_CONF_DIR=/opt/flink/hadoop-conf/ Wayne <1...@163.com> 于2021年8月28日周六 下午8:37写道: > 我的提交命令 > > > ./bin/flink run -d -m yarn-cluster > > > 报错如下 > The program finished with the following exception: > > > java.lang.IllegalStateException: No Execu

Re: flink run -d -m yarn-cluster 提交任务到yarn集群不成功

2021-08-30 文章 Yang Wang
export HADOOP_CLASSPATH=`hadoop classpath` 如上方式应该是没有问题的,你确认下这些目录下面的jar包是存在的,尤其是/Users//local/hadoop/hadoop-3.2.2/share/hadoop/yarn/ Best, Yang 龙逸尘 于2021年8月31日周二 上午11:02写道: > Hi Wayne, > > 可以尝试下指定 HADOOP_CONF_DIR > export HADOOP_CONF_DIR=/opt/flink/hadoop-conf/ > > Wayne <1...@163.c

Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-30 文章 guanyq
flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

Could not execute ALTER TABLE check_rule_base_hive_catalog.test_flink.test_partition DROP PARTITION (dt=2021-08-31)

2021-08-30 文章 Asahi Lee
hi! ??flink 1.13.1??hivedtsql hive?? Caused by: org.apache.flink.table.catalog.exceptions.PartitionSpecInvalidException: PartitionSpec CatalogPartitionSpec{{dt=2021-08-31}} does not match partition keys [dt, xtlx, sblx] of table test_flink.test_par

是否可以自定义trigger实现event time window的分散触发

2021-08-30 文章 yidan zhao
如题,我目前计划自定义event time trigger实现分散触发。 比如0-5的窗口分散到6-11分触发, 从6开始是因为本身有个1min的乱序处理。 同时配合将allowedlateness设置为5min,这样避免窗口状态在触发之前被clean。 不知道想法是否OK呢?