Re: JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-09 文章 Ada Luna
好的后续我会在这个ticket简述方案。 Lin Li 于2021年6月10日周四 下午12:02写道: > > 社区之前有过基于 legacy source 的 pr > https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献! > cc Guowei Ma > > > Luna Wong 于2021年6月10日周四 上午11:16写道: > > > 如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗 > >

回复: flinksql ttl不生效

2021-06-09 文章 Jason Lee
checkpoint文件大小不断增加的原因是由于任务的状态不断累积导致的;所以如果任务状态很大的情况下,比如Group by 的字段过多等等,可以考虑开启增量state.backend.incremental,同时可以考虑任务的类型,如果任务是按天进行聚合指标的情况可以考虑设置状态过期清理时间idlestate.retention.time为一天等方式来防止chekcpoint保留状态数据的不断增加,或者增加速度过快导致任务的内存不够而被Kill掉; 但是看您的描述,并不是设置State TTL不生效,而是要考虑状态时间戳的更新方式,因为状态时间戳被更新存在两种模式StateTt

Re: 回撤流的窗口统计

2021-06-09 文章 Lincoln Lee
你好, 目前的 tumble window 还不支持输入是更新流, 可以用 group by ts 配合 state ttl 来实现。 'table.exec.state.ttl' 是作业级别设置, 当前 sql 还不支持更细粒度的 state ttl 设置。如果有具体的想法,可以在 flink dev 邮件列表发起讨论或提交 jira issue,欢迎贡献社区! lincoln lee casel.chen 于2021年6月5日周六 下午2:24写道: > 上游是binlog cdc消费获取的回撤流,现要使用flink sql统计分析该回撤流上每5分钟的sum值,不能

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 文章 yidan zhao
我觉得还有个头疼的吧,你很多机器,怎么区分每个机器还得。哪个机器的JM/TM的日志。 yujianbo <15205029...@163.com> 于2021年6月10日周四 下午1:48写道: > > log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 文章 yujianbo
log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink1.13.1启动后web-ui查看taskmanager信息失败并报错,稳定复现。

2021-06-09 文章 yidan zhao
如题,今天从1.12升级到1.13.1,启动standalone集群后。找到web-ui,点taskmanagers,出现列表,然后点任意taskmanager进行查看信息。右上角弹提示Internal server error。查看了该JM的日志,后面附,主要报错是 Caused by: java.io.NotSerializableException: org.apache.flink.runtime.resourcemanager.TaskManagerInfoWithSlots。 此外,经过排查,并不是访问任意JM的rest地址都会有此问题,目前初步规律是,直接访问leader的w

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 文章 yidan zhao
log4j还可以打印到kafka吗。 yujianbo <15205029...@163.com> 于2021年6月10日周四 上午11:47写道: > > 版本:1.12 > 框架:用默认的log4j2框架 > 问题:日志打到kafka,如何去区分jobmanager和taskmanger日志?我发现去改layout.pattern,还是没有能找到区分的好办法? > > > appender.kafka.layout.type=PatternLayout > appender.kafka.layout.pattern=%d{-MM-dd HH:mm:ss,SSS} %-5p %-

Re: flinksql ttl不生效

2021-06-09 文章 HunterXHunter
建议关闭state.backend.incremental ,因为我遇到过,开启增量ckp导致ckp一直增大,关掉就正常了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flinksql ttl不生效

2021-06-09 文章 Lincoln Lee
你好, sql 作业可以尝试设置作业参数 "table.exec.state.ttl" 观察下效果 另外开启 "state.backend.incremental" 也可以减少 checkpoint 的大小 参数说明: https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#checkpoints-and-state-backends lincoln lee chenchencc <1353637...@qq.com> 于2021年6月8日周二 下午3:11写道:

Re: JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-09 文章 Lin Li
社区之前有过基于 legacy source 的 pr https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献! cc Guowei Ma Luna Wong 于2021年6月10日周四 上午11:16写道: > 如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗 >

Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 文章 yujianbo
版本:1.12 框架:用默认的log4j2框架 问题:日志打到kafka,如何去区分jobmanager和taskmanger日志?我发现去改layout.pattern,还是没有能找到区分的好办法? appender.kafka.layout.type=PatternLayout appender.kafka.layout.pattern=%d{-MM-dd HH:mm:ss,SSS} %-5p %-60c %x - %m%n -- %t -- %F -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: sink端处理数据很慢

2021-06-09 文章 LakeShen
看下最近是不是流量变大了,以及看下 Sink 的外部存储的集群压力是不是很大。 Best, LakeShen 田磊 于2021年6月10日周四 上午11:36写道: > 好的,谢谢,我看看。 > > > | | > totorobabyfans > | > | > 邮箱:totorobabyf...@163.com > | > > 签名由 网易邮箱大师 定制 > > 在2021年06月10日 10:50,Lin Li 写道: > 你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map > 节点应该是被反压导致停滞,可以

回复:sink端处理数据很慢

2021-06-09 文章 田磊
好的,谢谢,我看看。 | | totorobabyfans | | 邮箱:totorobabyf...@163.com | 签名由 网易邮箱大师 定制 在2021年06月10日 10:50,Lin Li 写道: 你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map 节点应该是被反压导致停滞,可以通过 backpressure tab 确认下 田磊 于2021年6月9日周三 下午10:39写道: > > 提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink

JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-09 文章 Luna Wong
如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗

Re: 获取流数据计算报错,socket输入能计算成功

2021-06-09 文章 Lin Li
你好, 异常栈不是作业 fail 的根本原因,可以在 flink ui 的 exception history 或 jobmanager log 中尝试查找第一次 fail 的原因 zdj <1361776...@qq.com> 于2021年6月8日周二 下午7:08写道: > 背景:阿里云rocketMq实例,开源flink1.11.2 > > 自定义rocketmq source,可以正常消费到数据,但是在流式计算的时候会报错 > > > org.apache.flink.streaming.runtime.tasks.ExceptionInChainedOperatorExcept

Re: FlinkSQL over PARTITION BY窗口不同并行度计算结果不同

2021-06-09 文章 Lin Li
你好, 方便提供下完整的 sql 和配置? 另外可以用 1.13 新版本测试看下 18814118038 <18814118...@163.com> 于2021年6月9日周三 上午8:57写道: > 有没有大佬指点下,谢谢 > > 回复的原邮件 > | 发件人 | Num<18814118...@163.com> | > | 发送日期 | 2021年06月08日 21:08 | > | 收件人 | user-zh | > | 主题 | FlinkSQL over PARTITION BY窗口不同并行度计算结果不同 | > > > 大家好,我kafka中有一批数据,我

Re: sink端处理数据很慢

2021-06-09 文章 Lin Li
你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map 节点应该是被反压导致停滞,可以通过 backpressure tab 确认下 田磊 于2021年6月9日周三 下午10:39写道: > > 提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink端只处理了几千条数据,这个时候map端的处理也停滞了,不知道什么原因。map并行度8,sink并行度1。之前也是这样的并行度,并没有出现类似的情况。 > > > | | > totorobabyfans > | > |

Re: FlinkSQL ES7连接器无法使用

2021-06-09 文章 Lin Li
你好, 从异常栈看,建议可以排查下提交环境的 es7 connector jar 和 运行时使用的版本是否不一致? Caused by: java.io.InvalidClassException: org.apache.flink.streaming.connectors.elasticsearch.table.Elasticsearch7DynamicSink$AuthRestClientFactory; local class incompatible: stream classdesc serialVersionUID = -2564582543942331131, loc

Re: 退订

2021-06-09 文章 Lin Li
你好! 需要取消订阅邮件组,请发送任意内容到 user-zh-unsubscr...@flink.apache.org 即可 请勿直接发送至邮件组 user-zh@flink.apache.org Apache 邮件列表订阅参考: https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list on the way 于2021年6月9日周三 上午8:59写道: > 退订

FlinkSQL ES7连接器无法使用

2021-06-09 文章 mokaful
org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot instantiate user function. at org.apache.flink.streaming.api.graph.StreamConfig.getStreamOperatorFactory(StreamConfig.java:338) ~[flink-dist_2.11-1.13.1.jar:1.13.1] at org.apache.flink.streaming.runtime.tasks.Opera

Re: flink1.13.1启动时候taskmanager异常日志

2021-06-09 文章 yidan zhao
忽略吧。升级的时候多个版本混合在一起导致的应该是,我全部升级完后没这个问题了。 yidan zhao 于2021年6月9日周三 下午8:05写道: > > 目前来看不影响运行可能,但是是ERROR的日志。如下: > 2021-06-09 20:04:41,194 INFO > org.apache.flink.runtime.taskexecutor.TaskExecutor [] - > Pausing and re-attempting registration in 1 ms > 2021-06-09 20:04:51,214 ERROR > org.a

Re: 如何设置FlinkSQL并行度

2021-06-09 文章 spike
hi 我们的业务场景也强需这个能力,方便单独交流下吗 regards -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink sql维表延迟join如何实现?

2021-06-09 文章 casel.chen
延迟join主要是为了解决维表数据后于事实表数据到达问题。java代码可以实现,那flink sql这块能否通过sql hint解决呢?有没有示例?

Re:回复:flink sql写mysql中文乱码问题

2021-06-09 文章 casel.chen
我用的就是在启动TM时添加参数 -Dfile.encoding=UTF-8 解决的 在 2021-06-09 21:47:48,"Jason Lee" 写道: > > >同遇到这个问题,看TM的日志的执行Vertic可以看到Cast(_UTF-16LE),然后我们是想往Kafka写入数据,结果写入乱码。 > > >然后想过通过(1)在集群机器的flink-conf.yaml文件中添加:env.java.opts: "-Dfile.encoding=UTF-8” >(2) 通过DECODE()ENCODE()将字符串编码解码成UTF-8或者GBK,都行不通

sink端处理数据很慢

2021-06-09 文章 田磊
提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink端只处理了几千条数据,这个时候map端的处理也停滞了,不知道什么原因。map并行度8,sink并行度1。之前也是这样的并行度,并没有出现类似的情况。 | | totorobabyfans | | 邮箱:totorobabyf...@163.com | 签名由 网易邮箱大师 定制

回复:flink sql写mysql中文乱码问题

2021-06-09 文章 Jason Lee
同遇到这个问题,看TM的日志的执行Vertic可以看到Cast(_UTF-16LE),然后我们是想往Kafka写入数据,结果写入乱码。 然后想过通过(1)在集群机器的flink-conf.yaml文件中添加:env.java.opts: "-Dfile.encoding=UTF-8” (2) 通过DECODE()ENCODE()将字符串编码解码成UTF-8或者GBK,都行不通 上述两种方式对乱码数据处理吗但是都是还会出现中文乱码。不知道你尝试过什么方法?有没有成功解决的? | | 李闯 | | jasonlee1...@163.com | 签名由网易邮箱大师定制 在202

Flink 日志和输出中文乱码

2021-06-09 文章 Jason Lee
大家好 我们在Flink数据写入Kafka时出现中文乱码问题,之后为了只管确定数据将Sink 换成Print打印出来,结果发现还是乱码。然后查看TM的日志,发现日志里面的中文也是乱码,而且显示执行的是cast(_UTF-16LE0),这一点也很不解,如下: "promotions":[{"amount":1000,"stage":1,"scope":0,"itemIndex":[1],"name":"å\u008D¡é¡¹æ\u009D\u0083ç\u009B\u008Aæ\u008Aµæ\u0089£","type":1,"value":1}],"deleted":0,"closeSt

flink1.13.1启动时候taskmanager异常日志

2021-06-09 文章 yidan zhao
目前来看不影响运行可能,但是是ERROR的日志。如下: 2021-06-09 20:04:41,194 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor [] - Pausing and re-attempting registration in 1 ms 2021-06-09 20:04:51,214 ERROR org.apache.flink.runtime.taskexecutor.TaskExecutor [] - Registration at ResourceManag

回复:sql client提交 flink任务失败

2021-06-09 文章 Fei Han
我现在设置了如下环境变量: export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop export PATH=${HADOOP_HOME}/bin:$PATH export HADOOP_CONF_DIR=/etc/hadoop/conf export YARN_CONF_DIR=/etc/hadoop/conf export HBASE_CONF_DIR=/etc/hbase/conf export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath` 作业提交yarn web

回复:退订

2021-06-09 文章 liuhu1993
回复:退订 -- 发件人:5599 <673313...@qq.com> 发送时间:2021年6月9日(星期三) 14:44 收件人:user-zh 主 题:回复:退订 user-zh-unsubscr...@flink.apache.org -- 原始邮件 -- 发件人: "金晓龙"

报错分析,readAddress, connection time out。

2021-06-09 文章 yidan zhao
报错日志片段 2021-06-09 17:42:53,873 ERROR org.apache.flink.runtime.io.network.netty.PartitionRequestQueue [] - Encountered error while consuming partitions org.apache.flink.shaded.netty4.io.netty.channel.unix.Errors$NativeIoException: readAddress(..) failed: Connection timed out ,如上是某个taskmanager的报错,

Re:FlinkSQL join 维表后一定会变成 upsert流吗?

2021-06-09 文章 东东
你用的是regular join吧,那就必然会变成retract流啊,因为一旦右流有变化,就会将变更影响到的结果输出,不就会有retract么。 join的类型可以看一下文档 在 2021-06-09 16:50:55,"WeiXubin" <18925434...@163.com> 写道: >请教各位一下,我使用 FlinkSQL 编写任务时,kafka source -> MySQL sink 不设置主键,查看了一下 request >mode 是 [INSERT] ,也就是普通的 append 流,这很正常。 > >但是当我关联上维表后,发现 request mode 变

FlinkSQL join 维表后一定会变成 upsert流吗?

2021-06-09 文章 WeiXubin
请教各位一下,我使用 FlinkSQL 编写任务时,kafka source -> MySQL sink 不设置主键,查看了一下 request mode 是 [INSERT] ,也就是普通的 append 流,这很正常。 但是当我关联上维表后,发现 request mode 变成了 [INSERT, UPDATE_BEFORE, UPDATE_AFTER, DELETE],这时异常报错会要求我给 sink 表设置主键,当我设置上主键后就会变成了 upsert 流。 upsert流底层实现原理是 INSERT INTO ... DUPLICATE KEY UPDATE,由于我采用的是