Hi Jan. Thanks for your reply. Do you set the option `table.exec.source.idle-timeout` and `pipeline.auto-watermark-interval` ? If the `pipeline.auto-watermark-interval ` is zero, it will not trigger the detection of the idle source.
Best, Shengkai Jan Oelschlegel <oelschle...@integration-factory.de> 于2021年2月26日周五 下午11:09写道: > Hi Shengkai, > > > > i’m using Flink 1.11.2. The problem is if I use a parallelism higher than > my kafka partition count, the watermarks are not increasing and so the > windows are never ggot fired. > > > > I suspect that then a source task is not marked as idle and thus the > watermark is not increased. In any case I have observed how with a larger > number of source tasks no results are produced. > > > > Best, > > Jan > > *Von:* Shengkai Fang <fskm...@gmail.com> > *Gesendet:* Freitag, 26. Februar 2021 15:32 > *An:* Jan Oelschlegel <oelschle...@integration-factory.de> > *Cc:* Benchao Li <libenc...@apache.org>; Arvid Heise <ar...@apache.org>; > user <user@flink.apache.org>; Timo Walther <twal...@apache.org> > *Betreff:* Re: Kafka SQL Connector: dropping events if more partitions > then source tasks > > > > Hi, Jan. > > > > Could you tell us which Flink version you use? As far as I know, the kafka > sql connector has implemented `SupportWatermarkPushDown` in Flink-1.12. The > `SupportWatermarkPushDown` pushes the watermark generator into the source > and emits the minimum watermark among all the partitions. For more details, > you can refer to the doc for more details[1]. > > > > If you use the version before FLINK-1.12, I think the best approach to > solve this problem is to increase source tasks. > > > > Best, > > Shengkai > > > > [1] > https://ci.apache.org/projects/flink/flink-docs-master/docs/connectors/table/kafka/#source-per-partition-watermarks > > > > Jan Oelschlegel <oelschle...@integration-factory.de> 于2021年2月25日周四 下午4:24 > 写道: > > Hi Benchao, > > > > i’m observing this behaviour only for the SQL API. With the Datastream API > i can take more or less source-tasks then kafka partition count. And > FLIP-27 seems to belong to the Datastream API. > > > > The problem is only on the SQL site. > > > > > > Best, > > Jan > > > > *Von:* Benchao Li <libenc...@apache.org> > *Gesendet:* Donnerstag, 25. Februar 2021 00:04 > *An:* Jan Oelschlegel <oelschle...@integration-factory.de> > *Cc:* Arvid Heise <ar...@apache.org>; user <user@flink.apache.org>; Timo > Walther <twal...@apache.org> > *Betreff:* Re: Kafka SQL Connector: dropping events if more partitions > then source tasks > > > > Hi Jan, > > > > What you are observing is correct for the current implementation. > > > > Current watermark generation is based on subtask instead of partition. > Hence if there are > > more than on partition in the same subtask, it's very easy to see more > data dropped. > > > > AFAIK, FLIP-27 could solve this problem, however the Kafka Connector has > not been > > migrated to FLIP-27 for now. > > > > > > Jan Oelschlegel <oelschle...@integration-factory.de> 于2021年2月24日周三 下午10:07 > 写道: > > Hi Arvid, > > > > thanks for bringing back this topic. > > > > Yes, I’m running on historic data, but as you mentioned that should not be > the problem, even there is a event-time skew between partitions. > > > > But maybe this issue with the missing watermark pushdown per partition is > the important fact: > > > > https://issues.apache.org/jira/browse/FLINK-20041 > > > > > > Best, > > Jan > > > > *Von:* Arvid Heise <ar...@apache.org> > *Gesendet:* Mittwoch, 24. Februar 2021 14:10 > *An:* Jan Oelschlegel <oelschle...@integration-factory.de> > *Cc:* user <user@flink.apache.org>; Timo Walther <twal...@apache.org> > *Betreff:* Re: Kafka SQL Connector: dropping events if more partitions > then source tasks > > > > Hi Jan, > > > > Are you running on historic data? Then your partitions might drift apart > quickly. > > > > However, I still suspect that this is a bug (Watermark should only be from > the slowest partition). I'm pulling in Timo who should know more. > > > > > > > > On Fri, Feb 19, 2021 at 10:50 AM Jan Oelschlegel < > oelschle...@integration-factory.de> wrote: > > If i increase the watermark, the dropped events getting lower. But why is > the DataStream API Job still running with 12 hours watermark delay? > > By the way, I’m using Flink 1.11. It would be nice if someone could give > me some advice. > > > > Best, > > Jan > > > > *Von:* Jan Oelschlegel <oelschle...@integration-factory.de> > *Gesendet:* Donnerstag, 18. Februar 2021 09:51 > *An:* Jan Oelschlegel <oelschle...@integration-factory.de>; user < > user@flink.apache.org> > *Betreff:* AW: Kafka SQL Connector: dropping events if more partitions > then source tasks > > > > By using the DataStream API with the same business logic I’m getting no > dropped events. > > > > *Von:* Jan Oelschlegel <oelschle...@integration-factory.de> > *Gesendet:* Mittwoch, 17. Februar 2021 19:18 > *An:* user <user@flink.apache.org> > *Betreff:* Kafka SQL Connector: dropping events if more partitions then > source tasks > > > > Hi, > > > > i have a question regarding FlinkSQL connector for Kafka. I have 3 Kafka > partitions and 1 Kafka SQL source connector (Parallelism 1). The data > within the Kafka parttitons are sorted based on a event-time field, which > is also my event-time in Flink. My Watermark is generated with a delay of > 12 hours > > > > WATERMARK FOR eventtime as eventtime - INTERVAL '12' HOUR > > > > > > But the problem is that I see dropping events due arriving late in > Prometheus. But with parallelism of 3 there are no drops. > > > > Do I always have to have as much source-tasks as I have Kafka partitions? > > > > > > > > Best, > > Jan > > HINWEIS: Dies ist eine vertrauliche Nachricht und nur für den Adressaten > bestimmt. Es ist nicht erlaubt, diese Nachricht zu kopieren oder Dritten > zugänglich zu machen. Sollten Sie diese Nachricht irrtümlich erhalten > haben, bitte ich um Ihre Mitteilung per E-Mail oder unter der oben > angegebenen Telefonnummer. > > HINWEIS: Dies ist eine vertrauliche Nachricht und nur für den Adressaten > bestimmt. Es ist nicht erlaubt, diese Nachricht zu kopieren oder Dritten > zugänglich zu machen. Sollten Sie diese Nachricht irrtümlich erhalten > haben, bitte ich um Ihre Mitteilung per E-Mail oder unter der oben > angegebenen Telefonnummer. > > HINWEIS: Dies ist eine vertrauliche Nachricht und nur für den Adressaten > bestimmt. Es ist nicht erlaubt, diese Nachricht zu kopieren oder Dritten > zugänglich zu machen. Sollten Sie diese Nachricht irrtümlich erhalten > haben, bitte ich um Ihre Mitteilung per E-Mail oder unter der oben > angegebenen Telefonnummer. > > > > > -- > > > Best, > Benchao Li > > HINWEIS: Dies ist eine vertrauliche Nachricht und nur für den Adressaten > bestimmt. Es ist nicht erlaubt, diese Nachricht zu kopieren oder Dritten > zugänglich zu machen. Sollten Sie diese Nachricht irrtümlich erhalten > haben, bitte ich um Ihre Mitteilung per E-Mail oder unter der oben > angegebenen Telefonnummer. > > HINWEIS: Dies ist eine vertrauliche Nachricht und nur für den Adressaten > bestimmt. Es ist nicht erlaubt, diese Nachricht zu kopieren oder Dritten > zugänglich zu machen. Sollten Sie diese Nachricht irrtümlich erhalten > haben, bitte ich um Ihre Mitteilung per E-Mail oder unter der oben > angegebenen Telefonnummer. >