Threads waiting on LocalBufferPool

Maciek Próchniak Wed, 20 Apr 2016 06:52:14 -0700

Hi,

I'm running my flink job on one rather large machine (20 cores withhyperthreading, 120GB RAM). Task manager has 20GB heap allocated.

It does more or less:

read csv from kafka -> keyBy one of the fields -> some custom stateprocessing.

Kafka topic has 24 partitions, so my parallelism is also 24

After some tweaks and upgrading to 1.0.2-rc3 (as I use RocksDB statebackend) I reached a point when throughput is ~120-150k/s.One the same kafka and machine I reached > 500k/s with simple filteringjob, so I wanted to see what's the bottleneck.

It turns out that quite often all of kafka threads are stuck waiting forbuffer from pool:"Thread-6695" #7466 daemon prio=5 os_prio=0 tid=0x00007f77fd80d000nid=0x8118 in Object.wait() [0x00007f7ad54d9000]

   java.lang.Thread.State: TIMED_WAITING (on object monitor)
        at java.lang.Object.wait(Native Method)

atorg.apache.flink.runtime.io.network.buffer.LocalBufferPool.requestBuffer(LocalBufferPool.java:163)

        - locked <0x00000002eade3890> (a java.util.ArrayDeque)

atorg.apache.flink.runtime.io.network.buffer.LocalBufferPool.requestBufferBlocking(LocalBufferPool.java:133)atorg.apache.flink.runtime.io.network.api.writer.RecordWriter.emit(RecordWriter.java:92)- locked <0x00000002eb73cbd0> (aorg.apache.flink.runtime.io.network.api.serialization.SpanningRecordSerializer)atorg.apache.flink.streaming.runtime.io.StreamRecordWriter.emit(StreamRecordWriter.java:86)atorg.apache.flink.streaming.runtime.io.RecordWriterOutput.collect(RecordWriterOutput.java:78)atorg.apache.flink.streaming.runtime.io.RecordWriterOutput.collect(RecordWriterOutput.java:39)atorg.apache.flink.streaming.api.operators.TimestampedCollector.collect(TimestampedCollector.java:51)atorg.apache.flink.streaming.api.scala.DataStream$$anon$6$$anonfun$flatMap$1.apply(DataStream.scala:541)atorg.apache.flink.streaming.api.scala.DataStream$$anon$6$$anonfun$flatMap$1.apply(DataStream.scala:541)

        at scala.collection.immutable.List.foreach(List.scala:381)

atorg.apache.flink.streaming.api.scala.DataStream$$anon$6.flatMap(DataStream.scala:541)atorg.apache.flink.streaming.api.operators.StreamFlatMap.processElement(StreamFlatMap.java:48)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:309)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:297)atorg.apache.flink.streaming.api.operators.StreamFilter.processElement(StreamFilter.java:38)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:309)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:297)atorg.apache.flink.streaming.api.operators.StreamFilter.processElement(StreamFilter.java:38)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:309)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:297)atorg.apache.flink.streaming.api.operators.StreamMap.processElement(StreamMap.java:39)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:309)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:297)atorg.apache.flink.streaming.api.operators.StreamMap.processElement(StreamMap.java:39)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:309)atorg.apache.flink.streaming.runtime.tasks.OperatorChain$ChainingOutput.collect(OperatorChain.java:297)atorg.apache.flink.streaming.api.operators.StreamSource$ManualWatermarkContext.collect(StreamSource.java:318)

        - locked <0x00000002eaf3eb50> (a java.lang.Object)

atorg.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09$ConsumerThread.run(FlinkKafkaConsumer09.java:473)

        - locked <0x00000002eaf3eb50> (a java.lang.Object)

This seems a bit weird for me, as most of state processing threads are idle:

"My custom function -> (Sink: Unnamed, Map) (19/24)" #7353 daemon prio=5os_prio=0 tid=0x00007f7a7400e000 nid=0x80a7 waiting on condition[0x00007f7bee8ed000]

   java.lang.Thread.State: TIMED_WAITING (parking)
        at sun.misc.Unsafe.park(Native Method)

- parking to wait for <0x00000002eb840c38> (ajava.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)atjava.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)atjava.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2078)atjava.util.concurrent.LinkedBlockingQueue.poll(LinkedBlockingQueue.java:467)atorg.apache.flink.runtime.io.network.partition.consumer.SingleInputGate.getNextBufferOrEvent(SingleInputGate.java:415)atorg.apache.flink.streaming.runtime.io.BarrierBuffer.getNextNonBlocked(BarrierBuffer.java:108)atorg.apache.flink.streaming.runtime.io.StreamInputProcessor.processInput(StreamInputProcessor.java:175)atorg.apache.flink.streaming.runtime.tasks.OneInputStreamTask.run(OneInputStreamTask.java:65)atorg.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:225)

        at org.apache.flink.runtime.taskmanager.Task.run(Task.java:559)
        at java.lang.Thread.run(Thread.java:745)

I tried with using more network buffers, but I doesn't seem to changeanything - and if I understand correctlyhttps://ci.apache.org/projects/flink/flink-docs-master/setup/config.html#configuring-the-network-buffersI should not need more than 24^2 * 4 of them...

Does anybody encountered such problem? Or maybe it's just normal forsuch case...


thanks,
maciek

Threads waiting on LocalBufferPool

Reply via email to