Flink与MySQL对接相关的问题

2021-01-20 文章 Land
大家好! 使用Flink与MySQL对接的过程中,遇到如下的问题: 1. MySQLCatalog目前未支持,对MySQL中的表进行读写需要先通过DDL进行声明,由于表中的字段比较多,操作起来会比较繁琐。搜查了一遍,发现目前社区对这个支持还没有列入计划。如果可以推动在1.13开发支持该Catalog,那就太好了。 https://issues.apache.org/jira/browse/FLINK-15352 https://issues.apache.org/jira/browse/FLINK-15350 2.不支持针对部分字段的插入更新; https://issues.apach

flink sql 执行limit 很少的语句依然会暴增

2021-01-20 文章 zhang hao
请教个问题,使用flink sql 去拉取mysql数据,mysql源表有千万级别数据量,使用了 select * from sourcTable limit 10; 即使是limit几条数据也会导致内存暴增。这里的limit是从mysql原表执行后 直接在flink taskmanager进行limit取数据吗?

Re: flink1.12 on yarn per-job 运行问题

2021-01-20 文章 chaos
感谢回复,看日志好像没什么异常。日志已添加到附件。 Yarn Sesseion 模式运行时是没问题的, Per-job 和 Application Mode 就不行。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: [DISCUSS] Correct time-related function behavior in Flink SQL

2021-01-20 文章 Jark Wu
Great examples to understand the problem and the proposed changes, @Kurt! Thanks Leonard for investigating this problem. The time-zone problems around time functions and windows have bothered a lot of users. It's time to fix them! The return value changes sound reasonable to me, and keeping the r

Re: flink1.12 on yarn per-job 运行问题

2021-01-20 文章 chaos
感谢回复。 CDH 集群 160G, 64C,平时主要夜间跑离线任务,提交程序时没指定任何资源相关的配置 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink整合hive问题

2021-01-20 文章 赵一旦
我将线上的hive-site文件复制到了flink的conf中,并且相关jar都放好。 使用flink的sql-client的-l方式将相关jar指定,启动了sql-client。 然后catalog,databases,tables等信息都能查询到了。 但是select * from xxTable where dt=''; 就会有问题。 看了flink集群报错,这个错误直接导致flink的standalonesession进程失败会。 报错如下: 2021-01-21 13:43:42,818 INFO org.apache.hadoop.fs.bos.BaiduBosFile

Re: 回复:Flink 1.11 SQL可以支持kafka动态分区发现么?

2021-01-20 文章 zhisheng
1.11 文档里面没有,那么估计就不支持了,可以看下 1.12 如何实现的,然后把这个 patch 打在内部自己的 flink 版本里面 sunfulin 于2021年1月20日周三 下午2:53写道: > > 我看下这个源码,貌似是有这个参数。还不确定SQL ddl里配置会不会生效,回头验证下。 > > > > > -- > 发自我的网易邮箱手机智能版 > > > > - Original Message - > From: "Shuai Xia" > To: user-zh , sunfulin0321 > > Sent: Wed, 20 Jan 2021 1

Re: flink heartbeat timeout

2021-01-20 文章 Xintong Song
1. 50s 的 timeout 时间通常应该是够用的。建议排查一下 timeout 当时环境中是否存在网络抖动,或者 JM/TM 进程是否存在长时间 GC 导致不响应。 2. 目前 flink 集群配置无法做到不重启热更新 Thank you~ Xintong Song On Thu, Jan 21, 2021 at 11:39 AM guoxb__...@sina.com wrote: > Hi > > *问题描述:* > > > 我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,

Re: Pyflink JVM Metaspace 内存泄漏定位

2021-01-20 文章 Xintong Song
cc @Jark 看起来像是 JDBC connector 的问题。这块你熟悉吗?或者知道谁比较熟悉吗? Thank you~ Xintong Song On Wed, Jan 20, 2021 at 8:07 PM YueKun wrote: > hi,不确定是否能看到图片,Jmap导出的数据分析看如下:< > http://apache-flink.147419.n8.nabble.com/file/t1276/WX20210120-191436.png> > > > > > -- > Sent from: http://apache-flink.147419.n8.nab

Re: Flink SQL kafka connector有办法获取到partition、offset信息嘛?

2021-01-20 文章 HunterXHunter
CREATE TABLE KafkaTable ( `event_time` TIMESTAMP(3) METADATA FROM 'timestamp', `partition` BIGINT METADATA VIRTUAL, `offset` BIGINT METADATA VIRTUAL, `user_id` BIGINT, `item_id` BIGINT, `behavior` STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'user_behavior', 'properties.bootst

Flink ddl sql 在 Test和在Main里面执行结果不同

2021-01-20 文章 HunterXHunter
同一段代码,在main里面可以正常正常,在Test里面却直接结束 StreamExecutionEnvironment bsEnv = StreamExecutionEnvironment.getExecutionEnvironment(); EnvironmentSettings bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build(); StreamTableEnvironment bsTableEnv = StreamTableE

Re: 设置状态存储位置后,job运行起来后找不到状态数据

2021-01-20 文章 zhisheng
你配置的是本地目录,不是 hdfs 目录,当重启后,可能新的任务运行的机器不是之前的那台机器了,那么之前作业的状态信息(在其他机器上)是不在新的机器上的,那么就会发现找不到状态文件,建议配置成 HDFS 的 Best zhisheng 刘海 于2021年1月20日周三 下午9:05写道: > Hi all > 小弟遇到个问题期望大佬解答解答: > 通过 env.setStateBackend(new > RocksDBStateBackend("file:///data/flink/checkpoints"));设置状态存储位置,job运行起来后找不到状态数据, >

Re: flink1.12 on yarn per-job 运行问题

2021-01-20 文章 zhisheng
应该要提供一下 jm 的日志,麻烦检查一下 jm 里面的日志是否有异常的日志,我们遇到过类似的问题是因为包冲突导致的作业申请资源有问题,最后一直处于 created 状态 Best zhisheng 花乞丐 于2021年1月21日周四 上午8:47写道: > 贴一下提交程序的参数,以及你机器的配置,从上面看,是资源分配不够! > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: yarn-per-job 模式 savepoint执行保存点报错

2021-01-20 文章 zhisheng
检查一下作业是否有反压的情况?目前我们也有遇到这种情况就是作业在反压的情况下,对作业做一次 savepoint 其实是很难完成的,经常超时,社区目前的版本还不支持单独设置 savepoint 的超时时间。 刘海 于2021年1月21日周四 上午10:24写道: > Hi > 我目前在进行保存点相关的测试,目前执行命令报如下错误,从错误内容上看是超时,但是没有更多的信息了,有知道大致原因希望指点一下,拜谢 > > > flink1.12 yarn-per-job 模式 > jobID:fea3d87f138ef4c260ffe9324acc0e51 > yarnID : applic

Re: Pyflink 提交 Batch 任务后报错 “Failed to execute sql”

2021-01-20 文章 YueKun
结束这个问题,目前没有再出现,可能是以下两个原因的一个: 1. 更新了 Flink 版本,从 1.12.0 更新至 1.12.1 2. 扩大了Task Off-Heap 空间 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: [DISCUSS] Correct time-related function behavior in Flink SQL

2021-01-20 文章 Kurt Young
cc this to user & user-zh mailing list because this will affect lots of users, and also quite a lot of users were asking questions around this topic. Let me try to understand this from user's perspective. Your proposal will affect five functions, which are: - PROCTIME() - NOW() - CURREN

Re: Flink SQL kafka connector有办法获取到partition、offset信息嘛?

2021-01-20 文章 Evan
你好,可以获取 CREATE TABLE KafkaTable ( `event_time` TIMESTAMP(3) METADATA FROM 'timestamp', `partition` BIGINT METADATA VIRTUAL, `offset` BIGINT METADATA VIRTUAL, `user_id` BIGINT, `item_id` BIGINT, `behavior` STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'user_behavior', 'propertie

Re: flink yarn application 提交任务出错

2021-01-20 文章 Yang Wang
这个报错应该是你HDFS的core-site.xml的配置有问题 defaultFS应该是hdfs://localhost:9000/才对,你可以检查一下 Best, Yang casel.chen 于2021年1月19日周二 下午6:19写道: > 今天尝试使用yarn > application模式(带yarn.provided.lib.dirs参数),将$FLINK_LIB目录下的jar包上传到了hdfs,结果报了如下的错,是少了哪个jar包或配置文件吗? > > > org.apache.flink.client.deployment.ClusterDeploymentEx

Re: flink yarn application提交作业问题

2021-01-20 文章 Yang Wang
目前user jar是可以支持远程,但是只能是hadoop compatiable的schema 因为远程的这个user jar并不会下载到Flink client本地,而是直接注册为Yarn的local resource来使用 所以你的这个报错是预期内的,还没有办法支持 Best, Yang casel.chen 于2021年1月20日周三 上午10:23写道: > ./bin/flink run-application -t yarn-application \ > > -Dyarn.provided.lib.dirs="hdfs://localhost:9000/flin

flink heartbeat timeout

2021-01-20 文章 guoxb__...@sina.com
Hi 问题描述: 我在使用flink进行流式计算任务,我的程序造昨晚上21点启动的,当时看是正常的,数据也是正常处理的,在今早9点时候查看,任务被自动重启了,查看日志,报错如下: 从报错上来看是由于超时时间引起的,查看资料,是需要调整该参数参数:heartbeat.timeout,官网文档支出默认值是5,但是这样以来的话,就需要重启flink服务了,这在我们生产上是不允许的。 问题: 1、该错误的原因目前只是经过猜测,还没有确定具体的问题,希望有经验的朋友指点一二,万分感谢 2、如果我真的需要设置heartbeat.timeout这个参数的

Flink SQL kafka connector有办法获取到partition、offset信息嘛?

2021-01-20 文章 gimlee
如题,需要获取到kafka的partition、offset进行处理 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:yarn-per-job 模式 savepoint执行保存点报错

2021-01-20 文章 guanyq
./bin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppId ./bin/flink savepoint fea3d87f138ef4c260ffe9324acc0e51 [:targetDirectory] application_1610788069646_0021 [:targetDirectory] hdfs:///flink/savepoints 在 2021-01-21 10:24:31,"刘海" 写道: >Hi > 我目前在进行保存点相关的测试,目前执行命令报如下错误,从错误内

Re: flink 写hive decimal类型报错

2021-01-20 文章 Rui Li
你好,有设置过table.exec.hive.fallback-mapred-writer参数么?可以把它设置成true再试试。 On Wed, Jan 20, 2021 at 4:39 PM kandy.wang wrote: > java.lang.NoSuchMethodError: > org.apache.hadoop.hive.serde2.io.HiveDecimalWritable.serialize64(I)J > > at > org.apache.orc.impl.ColumnStatisticsImpl$Decimal64StatisticsImpl.updat

flink No operators defined in streaming topology. Cannot execute. 问题

2021-01-20 文章 HunterXHunter
EnvironmentSettings sett = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build(); StreamTableEnvironment streamTableEnv = StreamTableEnvironment.create(streamEnv, sett); //当程序全部使用ddl方式执行的时候 streamTableEnv.executeSql(DDLSourceSQLManager.createTableUseDDLFrom

yarn-per-job 模式 savepoint执行保存点报错

2021-01-20 文章 刘海
Hi 我目前在进行保存点相关的测试,目前执行命令报如下错误,从错误内容上看是超时,但是没有更多的信息了,有知道大致原因希望指点一下,拜谢 flink1.12 yarn-per-job 模式 jobID:fea3d87f138ef4c260ffe9324acc0e51 yarnID : application_1610788069646_0021 执行的命令如下: ./bin/flink savepoint -t yarn-per-job -D yarn.application.id=application_1610788069646_0021 fea3d87f138ef4c2

flink 1.12.0版本 消费0.10版本kafka集群数据==>0.9版本kafka集群

2021-01-20 文章 guanyq
请问下如何选择kafka connector的版本 如果选择1.12.0版本,就没有FlinkKafkaProducer09/FlinkKafkaConsumer09 org.apache.flink flink-connector-kafka_${scala.binary.version}

Re: flink1.12 on yarn per-job 运行问题

2021-01-20 文章 花乞丐
贴一下提交程序的参数,以及你机器的配置,从上面看,是资源分配不够! -- Sent from: http://apache-flink.147419.n8.nabble.com/

设置状态存储位置后,job运行起来后找不到状态数据

2021-01-20 文章 刘海
Hi all 小弟遇到个问题期望大佬解答解答: 通过 env.setStateBackend(new RocksDBStateBackend("file:///data/flink/checkpoints"));设置状态存储位置,job运行起来后找不到状态数据, flink1.12 yarn pre job 模式,下面是我的配置,job运行起来后在服务器上找不到 “/data/flink/checkpoints”这个目录,像我设置了状态的存储位置是不是job一运行起来对应的存储位置就应该有状态的数据呢? public class FlinkTestDemo { p

Re: Pyflink JVM Metaspace 内存泄漏定位

2021-01-20 文章 YueKun
hi,不确定是否能看到图片,Jmap导出的数据分析看如下: -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Pyflink JVM Metaspace 内存泄漏定位

2021-01-20 文章 YueKun
我是Python的table API实现的,connector是jdbc,jar包是用的flink网站上提供的链接里的(https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/jdbc.html),有 flink-connector-jdbc_2.11-1.12.0.jar 和 mysql-connector-java-5.1.49.jar。 任务是用SQL写的,基本和flink提供的demo的代码一致: " ) WITH ( 'connector' = 'jdbc',

Re: Pyflink JVM Metaspace 内存泄漏定位

2021-01-20 文章 Xintong Song
JDBC连接是谁创建的,能找到相关调用栈吗,是 flink 提供的 connector 还是用户代码? Thank you~ Xintong Song On Wed, Jan 20, 2021 at 6:32 PM YueKun wrote: > 目前看泄漏是因为 mysql 的 JDBC 引起的,和 > > http://apache-flink.147419.n8.nabble.com/1-11-1-OutOfMemoryError-Metaspace-td8367.html#a8399 > 这个问题一样。这个有什么解决方法吗?需要更换 mysql-connector-ja

Re: Pyflink JVM Metaspace 内存泄漏定位

2021-01-20 文章 YueKun
目前看泄漏是因为 mysql 的 JDBC 引起的,和 http://apache-flink.147419.n8.nabble.com/1-11-1-OutOfMemoryError-Metaspace-td8367.html#a8399 这个问题一样。这个有什么解决方法吗?需要更换 mysql-connector-java 版本吗? 我目前用的 5.1.49 版本 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:1.11.1 报OutOfMemoryError: Metaspace. 错误

2021-01-20 文章 YueKun
你好,请问这个问题解决了吗?我目前也有遇到这个情况 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.12 on yarn per-job 运行问题

2021-01-20 文章 chaos
跑demo都能正常跑,但是跑自己的程序就出现任务一直处于created 状态。 yarn 集群资源充足。 在flink的web 界面 Exceptions 里会看到 java.util.concurrent.CompletionException: org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Slot

Re: UDTAGG在SQL中可以使用么,语法是什么

2021-01-20 文章 jiangwan
你好,我这有一个使用场景,是计算前一段时间内的某字段的TopN,需要使用over窗口和udtagg的结合。 查看官网发现,udtagg不支持flinksql, tableapi的over窗口后面也只能接select语句,请问下,还有其它办法吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 写hive的并行度只能为1

2021-01-20 文章 zhuxiaoshang
hi, 并行度为1的是discard sink,实际写数据的是filewriter算子 > 2021年1月20日 下午4:29,高函 写道: > > > 为什么目前flink写hive的并行度只能设置为1呢?

flink 写hive decimal类型报错

2021-01-20 文章 kandy.wang
java.lang.NoSuchMethodError: org.apache.hadoop.hive.serde2.io.HiveDecimalWritable.serialize64(I)J at org.apache.orc.impl.ColumnStatisticsImpl$Decimal64StatisticsImpl.updateDecimal(ColumnStatisticsImpl.java:1010) at org.apache.orc.impl.writer.DecimalTreeWriter.writeBatch(DecimalTreeWriter.java:

flink 写hive的并行度只能为1

2021-01-20 文章 高函
为什么目前flink写hive的并行度只能设置为1呢?

Re: K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-20 文章 macdoor
拿到了吗?有什么发现吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/