Re: Flink CDC消费Apache Paimon表

2023-10-07 文章 Feng Jin
hi casel Flink 实时消费 paimon,默认情况就是全量 + 增量的方式。 具体可以参考: https://paimon.apache.org/docs/master/maintenance/configurations/ 中的 scan.mode 参数 best, Feng On Fri, Sep 29, 2023 at 5:50 PM casel.chen wrote: > 目前想要通过Flink全量+增量消费Apache Paimon表需要分别起离线和增量消费两个作业,比较麻烦,而且无法无缝衔接,能否通过类似Flink > CDC消费mysql表的方式消费

Re: flink两阶段提交

2023-10-07 文章 Feng Jin
hi, 可以参考这篇博客,描述的非常清晰: https://flink.apache.org/2018/02/28/an-overview-of-end-to-end-exactly-once-processing-in-apache-flink-with-apache-kafka-too/ Best, Feng On Sun, Sep 24, 2023 at 9:54 PM 海风 <18751805...@163.com> wrote: > 请教一下,flink的两阶段提交对于sink算子,预提交是在做检查点的哪个阶段触发的?预提交时具体是做了什么工作? > > >

Re: flink sql不支持show create catalog 吗?

2023-10-19 文章 Feng Jin
hi casel 从 1.18 开始,引入了 CatalogStore,持久化了 Catalog 的配置,确实可以支持 show create catalog 了。 Best, Feng On Fri, Oct 20, 2023 at 11:55 AM casel.chen wrote: > 之前在flink sql中创建过一个catalog,现在想查看当初创建catalog的语句复制并修改一下另存为一个新的catalog,发现flink > sql不支持show create catalog 。 > 而据我所知doris是支持show create catalog语句的。fl

Re: kafka_appender收集flink任务日志连接数过多问题

2023-10-19 文章 Feng Jin
可以考虑在每台 yarn 机器部署日志服务(可收集本机的日志到 kafka) yarn container -> 单机的日志服务 -> kafka. On Mon, Oct 16, 2023 at 3:58 PM 阿华田 wrote: > > Flink集群使用kafka_appender收集flink产生的日志,但是现在实时运行的任务超过了三千个,运行的yarn-container有20万+。导致存储日志的kafka集群连接数过多,kafka集群压力有点大,请教各位大佬flink日志采集这块还有什么好的方式吗 > > > | | > 阿华田 > | > | > a15733178

Re: [ANNOUNCE] Apache Flink 1.18.0 released

2023-10-26 文章 Feng Jin
Thanks for the great work! Congratulations Best, Feng Jin On Fri, Oct 27, 2023 at 12:36 AM Leonard Xu wrote: > Congratulations, Well done! > > Best, > Leonard > > On Fri, Oct 27, 2023 at 12:23 AM Lincoln Lee > wrote: > > > Thanks for the great work! Congrats

Re: Canal-json格式下乱码导致结果不符合预期

2023-11-13 文章 Feng Jin
hi 这个看起来不像是乱码造成的。 你可以尝试加上去重,还原出正确的CDC 再看下结果。 具体步骤如下: 1. 给 source 设置主键 2. table config 中设置 table.exec.source.cdc-events-duplicate 参数为 true 或者 set 'table.exec.source.cdc-events-duplicate'='true' Best, Feng On Mon, Nov 13, 2023 at 4:09 PM yawning wrote: > mysql里面字段: > > `encrypted_xx` blob >

Re: Flink-1.15版本

2023-11-23 文章 Feng Jin
看起来是类似的,不过这个报错应该是作业失败之后的报错,看还有没有其他的异常日志。 Best, Feng On Sat, Nov 4, 2023 at 3:26 PM Ray wrote: > 各位专家:当前遇到如下问题1、场景:在使用Yarn场景下提交flink任务2、版本:Flink1.15.03、日志:查看yarn上的日志发下,版本上的问题2023-11-04 > 15:04:42,313 ERROR org.apache.flink.util.FatalExitExceptionHandler > [] - FATAL: Thread 'flink-akka.acto

Re: flink ui 算子数据展示一直loading...

2024-01-23 文章 Feng Jin
可以尝试着下面几种方式确认下原因: 1. 打开浏览器开发者模式,看是否因为请求某个接口卡住 2. 查看下 JobManager 的 GC 情况,是否频繁 FullGC 3. 查看下 JobManager 的日志,是否存在某些资源文件丢失或者磁盘异常情况导致 web UI 无法访问. Best, Feng On Tue, Jan 23, 2024 at 6:16 PM 阿华田 wrote: > > > 如下图,任务处理数据正常,任务状态也正常,但是flink_ui一致处于loading中,只有个别任务这样,其他正常,有可能是metirc

Re: Flink任务链接信息审计获取

2024-02-02 文章 Feng Jin
hi, 可以参考下 OpenLineage[1] 的实现, 通过 Flink 配置JobListener 拿到 Transformation 信息,然后解析 Source 和 Sink 拿到血缘信息。 [1] https://github.com/OpenLineage/OpenLineage/blob/main/integration/flink/src/main/java/io/openlineage/flink/OpenLineageFlinkJobListener.java Best, Feng On Fri, Feb 2, 2024 at 6:36 PM 阿华田 wro

Re: Flink任务链接信息审计获取

2024-02-03 文章 Feng Jin
我理解应该是平台统一配置在 flink-conf.yaml 即可, 不需要用户单独配置相关参数. Best, Feng On Sun, Feb 4, 2024 at 11:19 AM 阿华田 wrote: > 看了一下 这样需要每个任务都配置listener,做不到系统级的控制,推动下游用户都去配置listener比较困难 > > > | | > 阿华田 > | > | > a15733178...@163.com > | > 签名由网易邮箱大师定制 > > > 在2024年02月2日 19:38,F

Re: flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-20 文章 Feng Jin
我理解不应该通过 rowData 获取, 可以通过 Context 获得 watermark 和 eventTime. Best, Feng On Tue, Feb 20, 2024 at 4:35 PM casel.chen wrote: > 请问flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark? > > > public class XxxSinkFunction extends RichSinkFunction implements > CheckpointedFunction, Chec

Re: Flink Prometheus Connector问题

2024-02-23 文章 Feng Jin
我理解可以参考 FLIP 中的设计, 基于 Prometheus Remote-Write API v1.0 来初步实现一个 SinkFunction 实现写入 Prometheus Best, Feng On Fri, Feb 23, 2024 at 7:36 PM 17610775726 <17610775...@163.com> wrote: > Hi > 参考官网, > https://nightlies.apache.org/flink/flink-docs-

Re: Flink DataStream 作业如何获取到作业血缘?

2024-02-26 文章 Feng Jin
通过 JobGraph 可以获得 transformation 信息,可以获得具体的 Source 或者 Doris Sink,之后再通过反射获取里面的 properties 信息进行提取。 可以参考 OpenLineage[1] 的实现. 1. https://github.com/OpenLineage/OpenLineage/blob/main/integration/flink/shared/src/main/java/io/openlineage/flink/visitor/wrapper/FlinkKafkaConsumerWrapper.java Best, Feng

Re: mysql cdc streamapi与sqlapi 输出表现不相同

2024-03-01 文章 Feng Jin
这两个 print 的实现是不一样的。 dataStream().print 是增加的 PrintSinkFunction, 该算子接受到数据会立刻打印出来, 且结果是在 TM 上打印出来。 而 table.execute().print() 是会把最终的结果通过 collect_sink 收集之后,回传到 client, 结果是在 client 的 stdout 打印出来, 且只有在做 checkpoint 时才会回传至 client, 它的可见周期会受限于 checkpoint 的间隔。 Best, Feng Jin On Fri, Mar 1, 2024 at 4

Re: FlinkSQL connector jdbc 用户密码是否可以加密/隐藏

2024-03-10 文章 Feng Jin
1. 目前 JDBC connector 本身不支持加密, 我理解可以在提交 SQL 给 SQL 文本来做加解密的操作,或者做一些变量替换来隐藏密码。 2. 可以考虑提前创建好 jdbc catalog,从而避免编写 DDL 暴露密码。 Best, Feng On Sun, Mar 10, 2024 at 9:50 PM 杨东树 wrote: > 各位好, >考虑到数据库用户、密码安全性问题,使用FlinkSQL connector > jdbc时,请问如何对数据库的用户密码进行加密/隐藏呢。例如如下常用sql中的password: > CREATE TABLE

Re: [ANNOUNCE] Donation Flink CDC into Apache Flink has Completed

2024-03-20 文章 Feng Jin
Congratulations! Best, Feng On Thu, Mar 21, 2024 at 11:37 AM Ron liu wrote: > Congratulations! > > Best, > Ron > > Jark Wu 于2024年3月21日周四 10:46写道: > > > Congratulations and welcome! > > > > Best, > > Jark > > > > On Thu, 21 Mar 2024 at 10:35, Rui Fan <1996fan...@gmail.com> wrote: > > > > > Co

Re: 回复:使用hive的catalog问题

2024-07-16 文章 Feng Jin
上面的示例好像使用的旧版本的 kafka connector 参数。 参考文档使用新版本的参数: https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/hive/hive_catalog/#step-4-create-a-kafka-table-with-flink-sql-ddl 需要把 kafka 的 connector [1] 也放入到 lib 目录下。 [1] https://nightlies.apache.org/flink/flink-docs-release-1.19/docs

Re: 开源flink cep是否支持动态规则配置

2024-09-12 文章 Feng Jin
目前还未支持。 https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=195730308 Best, Feng On Thu, Sep 12, 2024 at 10:20 AM 王凯 <2813732...@qq.com.invalid> wrote: > 请问下各位大佬开源flink CEP是否支持动态规则配置 > > > > > 王凯 > 2813732...@qq.com > > > >  

Re: flink datastream api写的代码如何在idea中调试

2023-04-22 文章 Feng Jin
支持的, 在 idea 中执行 main 函数即可.执行前,idea 中的运行配置中,最好勾选上: *Include dependencies with "Provided" scope *否则有可能会有 class not found 的报错. ---- Best, Feng Jin On Sat, Apr 22, 2023 at 9:28 PM m18751805115_1 <18751805...@163.com> wrote: > 请教一下,在idea中用flink datastream > api写的代码

Re: flink datastream api写的代码如何在idea中调试

2023-04-22 文章 Feng Jin
参考: https://www.jetbrains.com/help/idea/tutorial-remote-debug.html#174f812f --- Best, Feng Jin On Sat, Apr 22, 2023 at 10:04 PM m18751805115_1 <18751805...@163.com> wrote: > 抱歉啊,可能我没有把问题描述清楚。我是想本地对代码进行debug调试,观察每条流输入后的变量值以及调用栈等信息的。 > > > > ---- 回复的原邮件 > | 发件人 | Fen

Re: Flink RocketMQ Connector

2023-05-26 文章 Feng Jin
hi casel Flink RocketMQ connector 是由 RockeMQ 社区维护的, 对应的项目地址是: https://github.com/apache/rocketmq-flink 这个版本默认的消息是格式 DELIMIT 格式(默认消息是 String,按分隔符进行分割), 只能指定消息的列分隔符. best, feng On Fri, May 26, 2023 at 7:44 PM casel.chen wrote: > 有没有Flink RocketMQ官方连接器? 需要自己开发吗?Flink生态组件网址(用户上传自己开发的连接器格式什么的)是什

Re: flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-12 文章 Feng Jin
hi casel 1. 可以考虑使用 Flink1.15, 使用精简的 operator name https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/config/#table-exec-simplify-operator-name-enabled 2. Flink 也提供了 restful 接口直接获取瞬时的 metric,如果不需要历史的 metric https://nightlies.apache.org/flink/flink-docs-master/docs/ops/res

Re: Re: flink sql作业指标名称过长把prometheus内存打爆问题

2023-06-14 文章 Feng Jin
sSSS___AS_synModifyTime__CAST_CURRENT_TIMESTAMPAS_synTtlDate__NotNullEnforcer_fields__serviceId__Sink:_Sink_table__hive_default_mongodb_active_channel_sink___fields__transDate__serviceId__huifuFstOrg__huifuSecOrg__huifuThdOrg__huifuForOrg__huifuSales__synModifyTime__synTtlDate__",task_attempt_num="1",job_name="tb_top_top_trans_order_binlog2mongo",tm_id=&quo

Re: 建议Flink ROWKIND做成元数据metadata

2023-07-18 文章 Feng Jin
Hi casel 之前有类似的讨论, 不过暴露 ROWKIND 之后可能可以会造成 SQL 语义上的不明确,你可以在 dev 邮件在发起讨论看看,看看大家的想法。 https://issues.apache.org/jira/browse/FLINK-24547 Best, Feng On Wed, Jul 19, 2023 at 12:06 AM casel.chen wrote: > 社区无人响应吗? > > > > > > > > > > > > > > > > > > 在 2023-07-15 12:19:46,"casel.chen" 写道: > >Flink社区能否

Re: flink sql语句转成底层处理函数

2023-08-28 文章 Feng Jin
Loglevel 设置为 debug 之后,可以看到具体的 codegen 的代码。 On Mon, Aug 28, 2023 at 1:25 PM 海风 <18751805...@163.com> wrote: > 嗯,执行计划确实可以看到一些信息,只是还想知道是否还有比较好的方式能看具体有哪些底层函数以及状态,从而更方便去分析性能相关问题的 > > > > 回复的原邮件 > | 发件人 | Shammon FY | > | 日期 | 2023年08月28日 12:05 | > | 收件人 | user-zh@flink.apache.org | > | 抄送至 |

Re: flink-metrics如何获取applicationid

2023-08-30 文章 Feng Jin
hi, 可以尝试获取下 _APP_ID 这个 JVM 环境变量. System.getenv(YarnConfigKeys.ENV_APP_ID); https://github.com/apache/flink/blob/6c9bb3716a3a92f3b5326558c6238432c669556d/flink-yarn/src/main/java/org/apache/flink/yarn/YarnConfigKeys.java#L28 Best, Feng On Wed, Aug 30, 2023 at 7:14 PM allanqinjy wrote: > hi,

Re: 关于如何根据参数条件动态生成join的关联的sql

2024-10-21 文章 Feng Jin
hi, 先计算所有的 join 结果,结果中把相关的 join 字段带上, 再去基于 join 的结果去选择需要的结果是否可以? Best, Feng On Wed, Oct 16, 2024 at 10:42 AM 斗鱼 <1227581...@qq.com.invalid> wrote: > 大佬们,目前我遇到一个业务场景的问题, > 有如下四张表,其中一张事实表tableFact和三张维度表tableDimA、tableDimDetailB、tableDimDetailC进行left > join关联,这四张表根据userId、actPkId、bId、cType、c

Re: 关于如何根据参数条件动态生成join的关联的sql

2024-10-22 文章 Feng Jin
我表达的就是这个意思, 先把所有你需要的 join case 都计算出来, 并 union 所有结果,最后再根据条件选择需要的结果。 当前 Flink SQL 的 lookup join 大多数实现比如 jdbc 都是一个 join 节点一个 connection, 并没有做不同 join 节点的共享连接池。 你可能得需要改造下 jdbc connector 。 比如引入一个静态的共享连接池,至少可以做到一个 taskManager 内的所有 operator 能共享这些链接。 Best, Feng On Tue, Oct 22, 2024 at 10:38 AM 斗鱼 <122

Re: Re: Re:flink sql append only数据源去重如何不产生回撤retract消息?

2025-02-09 文章 Feng Jin
最终写入doris aggregation model table 聚合模型表。 > > 因为ticdc可能会因为自动重启而回溯部分binlog,所以cdc消息会有重复,因为想在flink > sql加去重逻辑,去重时间字段是ticdc消息中的单调递增的commitTs字段,而下游kafka和doris聚合模型都不支持回撤消息。所以才来咨询能否过滤掉回撤消息 > > > > > > > > > > > > > > > > > > 在 2025-01-19 2

Re: Re:flink sql append only数据源去重如何不产生retract消息?

2025-01-19 文章 Feng Jin
m = 1 ``` Best, Feng Jin On Sun, Jan 19, 2025 at 7:55 PM casel.chen wrote: > 社区有人回答一下么? > > > > > > > > > > > > > > > > > > 在 2025-01-14 13:42:58,"casel.chen" 写道: > >doris routine load不支持消费墓碑消息,会把它当作一个异常数据进行记录,累计达到阈值后会导致任务失败 &g