好的后续我会在这个ticket简述方案。
Lin Li 于2021年6月10日周四 下午12:02写道:
>
> 社区之前有过基于 legacy source 的 pr
> https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献!
> cc Guowei Ma
>
>
> Luna Wong 于2021年6月10日周四 上午11:16写道:
>
> > 如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗
> >
checkpoint文件大小不断增加的原因是由于任务的状态不断累积导致的;所以如果任务状态很大的情况下,比如Group by
的字段过多等等,可以考虑开启增量state.backend.incremental,同时可以考虑任务的类型,如果任务是按天进行聚合指标的情况可以考虑设置状态过期清理时间idlestate.retention.time为一天等方式来防止chekcpoint保留状态数据的不断增加,或者增加速度过快导致任务的内存不够而被Kill掉;
但是看您的描述,并不是设置State
TTL不生效,而是要考虑状态时间戳的更新方式,因为状态时间戳被更新存在两种模式StateTt
你好,
目前的 tumble window 还不支持输入是更新流, 可以用 group by ts 配合 state ttl 来实现。
'table.exec.state.ttl' 是作业级别设置, 当前 sql 还不支持更细粒度的 state ttl 设置。如果有具体的想法,可以在
flink dev 邮件列表发起讨论或提交 jira issue,欢迎贡献社区!
lincoln lee
casel.chen 于2021年6月5日周六 下午2:24写道:
> 上游是binlog cdc消费获取的回撤流,现要使用flink sql统计分析该回撤流上每5分钟的sum值,不能
我觉得还有个头疼的吧,你很多机器,怎么区分每个机器还得。哪个机器的JM/TM的日志。
yujianbo <15205029...@163.com> 于2021年6月10日周四 下午1:48写道:
>
> log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志
--
Sent from: http://apache-flink.147419.n8.nabble.com/
如题,今天从1.12升级到1.13.1,启动standalone集群后。找到web-ui,点taskmanagers,出现列表,然后点任意taskmanager进行查看信息。右上角弹提示Internal
server error。查看了该JM的日志,后面附,主要报错是 Caused by:
java.io.NotSerializableException:
org.apache.flink.runtime.resourcemanager.TaskManagerInfoWithSlots。
此外,经过排查,并不是访问任意JM的rest地址都会有此问题,目前初步规律是,直接访问leader的w
log4j还可以打印到kafka吗。
yujianbo <15205029...@163.com> 于2021年6月10日周四 上午11:47写道:
>
> 版本:1.12
> 框架:用默认的log4j2框架
> 问题:日志打到kafka,如何去区分jobmanager和taskmanger日志?我发现去改layout.pattern,还是没有能找到区分的好办法?
>
>
> appender.kafka.layout.type=PatternLayout
> appender.kafka.layout.pattern=%d{-MM-dd HH:mm:ss,SSS} %-5p %-
建议关闭state.backend.incremental ,因为我遇到过,开启增量ckp导致ckp一直增大,关掉就正常了
--
Sent from: http://apache-flink.147419.n8.nabble.com/
你好,
sql 作业可以尝试设置作业参数 "table.exec.state.ttl" 观察下效果
另外开启 "state.backend.incremental" 也可以减少 checkpoint 的大小
参数说明:
https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#checkpoints-and-state-backends
lincoln lee
chenchencc <1353637...@qq.com> 于2021年6月8日周二 下午3:11写道:
社区之前有过基于 legacy source 的 pr
https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献!
cc Guowei Ma
Luna Wong 于2021年6月10日周四 上午11:16写道:
> 如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗
>
版本:1.12
框架:用默认的log4j2框架
问题:日志打到kafka,如何去区分jobmanager和taskmanger日志?我发现去改layout.pattern,还是没有能找到区分的好办法?
appender.kafka.layout.type=PatternLayout
appender.kafka.layout.pattern=%d{-MM-dd HH:mm:ss,SSS} %-5p %-60c %x -
%m%n -- %t -- %F
--
Sent from: http://apache-flink.147419.n8.nabble.com/
看下最近是不是流量变大了,以及看下 Sink 的外部存储的集群压力是不是很大。
Best,
LakeShen
田磊 于2021年6月10日周四 上午11:36写道:
> 好的,谢谢,我看看。
>
>
> | |
> totorobabyfans
> |
> |
> 邮箱:totorobabyf...@163.com
> |
>
> 签名由 网易邮箱大师 定制
>
> 在2021年06月10日 10:50,Lin Li 写道:
> 你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map
> 节点应该是被反压导致停滞,可以
好的,谢谢,我看看。
| |
totorobabyfans
|
|
邮箱:totorobabyf...@163.com
|
签名由 网易邮箱大师 定制
在2021年06月10日 10:50,Lin Li 写道:
你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map
节点应该是被反压导致停滞,可以通过 backpressure tab 确认下
田磊 于2021年6月9日周三 下午10:39写道:
>
> 提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink
如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗
你好, 异常栈不是作业 fail 的根本原因,可以在 flink ui 的 exception history 或 jobmanager log
中尝试查找第一次 fail 的原因
zdj <1361776...@qq.com> 于2021年6月8日周二 下午7:08写道:
> 背景:阿里云rocketMq实例,开源flink1.11.2
>
> 自定义rocketmq source,可以正常消费到数据,但是在流式计算的时候会报错
>
>
> org.apache.flink.streaming.runtime.tasks.ExceptionInChainedOperatorExcept
你好, 方便提供下完整的 sql 和配置? 另外可以用 1.13 新版本测试看下
18814118038 <18814118...@163.com> 于2021年6月9日周三 上午8:57写道:
> 有没有大佬指点下,谢谢
>
> 回复的原邮件
> | 发件人 | Num<18814118...@163.com> |
> | 发送日期 | 2021年06月08日 21:08 |
> | 收件人 | user-zh |
> | 主题 | FlinkSQL over PARTITION BY窗口不同并行度计算结果不同 |
>
>
> 大家好,我kafka中有一批数据,我
你好,如果之前一直运行正常,建议检查下 sink 节点慢的原因(io 瓶颈、异常/ 节点 gc 之类的),前面的 map
节点应该是被反压导致停滞,可以通过 backpressure tab 确认下
田磊 于2021年6月9日周三 下午10:39写道:
>
> 提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink端只处理了几千条数据,这个时候map端的处理也停滞了,不知道什么原因。map并行度8,sink并行度1。之前也是这样的并行度,并没有出现类似的情况。
>
>
> | |
> totorobabyfans
> |
> |
你好,
从异常栈看,建议可以排查下提交环境的 es7 connector jar 和 运行时使用的版本是否不一致?
Caused by: java.io.InvalidClassException:
org.apache.flink.streaming.connectors.elasticsearch.table.Elasticsearch7DynamicSink$AuthRestClientFactory;
local class incompatible: stream classdesc serialVersionUID =
-2564582543942331131, loc
你好!
需要取消订阅邮件组,请发送任意内容到 user-zh-unsubscr...@flink.apache.org 即可
请勿直接发送至邮件组 user-zh@flink.apache.org
Apache 邮件列表订阅参考:
https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list
on the way 于2021年6月9日周三 上午8:59写道:
> 退订
org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot
instantiate user function.
at
org.apache.flink.streaming.api.graph.StreamConfig.getStreamOperatorFactory(StreamConfig.java:338)
~[flink-dist_2.11-1.13.1.jar:1.13.1]
at
org.apache.flink.streaming.runtime.tasks.Opera
忽略吧。升级的时候多个版本混合在一起导致的应该是,我全部升级完后没这个问题了。
yidan zhao 于2021年6月9日周三 下午8:05写道:
>
> 目前来看不影响运行可能,但是是ERROR的日志。如下:
> 2021-06-09 20:04:41,194 INFO
> org.apache.flink.runtime.taskexecutor.TaskExecutor [] -
> Pausing and re-attempting registration in 1 ms
> 2021-06-09 20:04:51,214 ERROR
> org.a
hi
我们的业务场景也强需这个能力,方便单独交流下吗
regards
--
Sent from: http://apache-flink.147419.n8.nabble.com/
延迟join主要是为了解决维表数据后于事实表数据到达问题。java代码可以实现,那flink sql这块能否通过sql hint解决呢?有没有示例?
我用的就是在启动TM时添加参数 -Dfile.encoding=UTF-8 解决的
在 2021-06-09 21:47:48,"Jason Lee" 写道:
>
>
>同遇到这个问题,看TM的日志的执行Vertic可以看到Cast(_UTF-16LE),然后我们是想往Kafka写入数据,结果写入乱码。
>
>
>然后想过通过(1)在集群机器的flink-conf.yaml文件中添加:env.java.opts: "-Dfile.encoding=UTF-8”
>(2) 通过DECODE()ENCODE()将字符串编码解码成UTF-8或者GBK,都行不通
提交任务后,通过flink的webui界面看,中间的map算子处理速度很快,13万条数据已经处理。但是sink端只处理了几千条数据,这个时候map端的处理也停滞了,不知道什么原因。map并行度8,sink并行度1。之前也是这样的并行度,并没有出现类似的情况。
| |
totorobabyfans
|
|
邮箱:totorobabyf...@163.com
|
签名由 网易邮箱大师 定制
同遇到这个问题,看TM的日志的执行Vertic可以看到Cast(_UTF-16LE),然后我们是想往Kafka写入数据,结果写入乱码。
然后想过通过(1)在集群机器的flink-conf.yaml文件中添加:env.java.opts: "-Dfile.encoding=UTF-8”
(2) 通过DECODE()ENCODE()将字符串编码解码成UTF-8或者GBK,都行不通
上述两种方式对乱码数据处理吗但是都是还会出现中文乱码。不知道你尝试过什么方法?有没有成功解决的?
| |
李闯
|
|
jasonlee1...@163.com
|
签名由网易邮箱大师定制
在202
大家好
我们在Flink数据写入Kafka时出现中文乱码问题,之后为了只管确定数据将Sink
换成Print打印出来,结果发现还是乱码。然后查看TM的日志,发现日志里面的中文也是乱码,而且显示执行的是cast(_UTF-16LE0),这一点也很不解,如下:
"promotions":[{"amount":1000,"stage":1,"scope":0,"itemIndex":[1],"name":"å\u008D¡é¡¹æ\u009D\u0083ç\u009B\u008Aæ\u008Aµæ\u0089£","type":1,"value":1}],"deleted":0,"closeSt
目前来看不影响运行可能,但是是ERROR的日志。如下:
2021-06-09 20:04:41,194 INFO
org.apache.flink.runtime.taskexecutor.TaskExecutor [] -
Pausing and re-attempting registration in 1 ms
2021-06-09 20:04:51,214 ERROR
org.apache.flink.runtime.taskexecutor.TaskExecutor [] -
Registration at ResourceManag
我现在设置了如下环境变量:
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export PATH=${HADOOP_HOME}/bin:$PATH
export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf
export HBASE_CONF_DIR=/etc/hbase/conf
export HADOOP_CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath`
作业提交yarn web
回复:退订
--
发件人:5599 <673313...@qq.com>
发送时间:2021年6月9日(星期三) 14:44
收件人:user-zh
主 题:回复:退订
user-zh-unsubscr...@flink.apache.org
-- 原始邮件 --
发件人: "金晓龙"
报错日志片段
2021-06-09 17:42:53,873 ERROR
org.apache.flink.runtime.io.network.netty.PartitionRequestQueue [] -
Encountered error while consuming partitions
org.apache.flink.shaded.netty4.io.netty.channel.unix.Errors$NativeIoException:
readAddress(..) failed: Connection timed out
,如上是某个taskmanager的报错,
你用的是regular join吧,那就必然会变成retract流啊,因为一旦右流有变化,就会将变更影响到的结果输出,不就会有retract么。
join的类型可以看一下文档
在 2021-06-09 16:50:55,"WeiXubin" <18925434...@163.com> 写道:
>请教各位一下,我使用 FlinkSQL 编写任务时,kafka source -> MySQL sink 不设置主键,查看了一下 request
>mode 是 [INSERT] ,也就是普通的 append 流,这很正常。
>
>但是当我关联上维表后,发现 request mode 变
请教各位一下,我使用 FlinkSQL 编写任务时,kafka source -> MySQL sink 不设置主键,查看了一下 request
mode 是 [INSERT] ,也就是普通的 append 流,这很正常。
但是当我关联上维表后,发现 request mode 变成了 [INSERT, UPDATE_BEFORE, UPDATE_AFTER,
DELETE],这时异常报错会要求我给 sink 表设置主键,当我设置上主键后就会变成了 upsert 流。
upsert流底层实现原理是 INSERT INTO ... DUPLICATE KEY UPDATE,由于我采用的是
33 matches
Mail list logo