你好,
   你的5分钟应该是period_of_auto_resume_min这个参数影响的,可以按需进行调整。
period_of_auto_resume_min FE 配置项,默认是5分钟。Doris重新调度,只会在5分钟这个周期内,最多尝试3次. 
如果3次都失败则锁定当前任务,后续不在进行调度。但可通过人为干预,进行手动恢复。
----------------------------------------------------------------------------------------------------------------------------------------------------
另外还有一些系统配置参数会影响例行导入的使用。

max_routine_load_task_concurrent_num

FE 配置项,默认为 5,可以运行时修改。该参数限制了一个例行导入作业最大的子任务并发数。建议维持默认值。设置过大,可能导致同时并发的任务数过多,占用集群资源。

max_routine_load_task_num_per_be

FE 配置项,默认为5,可以运行时修改。该参数限制了每个 BE 
节点最多并发执行的子任务个数。建议维持默认值。如果设置过大,可能导致并发任务数过多,占用集群资源。

max_routine_load_job_num

FE 配置项,默认为100,可以运行时修改。该参数限制的例行导入作业的总数,包括 NEED_SCHEDULED, RUNNING, PAUSE 
这些状态。超过后,不能在提交新的作业。

max_consumer_num_per_group

BE 配置项,默认为 3。该参数表示一个子任务中最多生成几个 consumer 进行数据消费。对于 Kafka 数据源,一个 consumer 
可能消费一个或多个 kafka partition。假设一个任务需要消费 6 个 kafka partition,则会生成 3 个 consumer,每个 
consumer 消费 2 个 partition。如果只有 2 个 partition,则只会生成 2 个 consumer,每个 consumer 消费 
1 个 partition。

push_write_mbytes_per_sec

BE 配置项。默认为 10,即 10MB/s。该参数为导入通用参数,不限于例行导入作业。该参数限制了导入数据写入磁盘的速度。对于 SSD 
等高性能存储设备,可以适当增加这个限速。

max_tolerable_backend_down_num FE 
配置项,默认值是0。在满足某些条件下,Doris可PAUSED的任务重新调度,即变成RUNNING。该参数为0代表只有所有BE节点是alive状态才允许重新调度。


王磊
wang...@flywheels.com





---- 回复的原邮件 ----
发件人 陈爱国(magpie)<chenai...@hisense.com>发送日期 2022年07月6日 19:14收件人 
<dev@doris.apache.org>主题 如何 增加 doris ROUTINE LOAD 处理 频率
你好:


    我新安装了doris,做应用尝试。目前接人kafka数据碰到了问题,请求帮助。目前 FE 1个,BE 4个。
ROUTINE LOAD 配置如下:

   CREATE ROUTINE LOAD cloud.kafka_ods_wm_job ON ods_wm
********* PROPERTIES ( "desired_concurrent_number"="20", "max_batch_interval" = 
"5", "strict_mode" = "false", "format" = "json" ) FROM KAFKA ( 
"kafka_broker_list" = "X.X.X.X:XX", "kafka_topic" = "realtime_doris", 
"property.group.id" = "cloud_ods_wm", "property.kafka_default_offsets" = 
"OFFSET_END" );
  
  表现是lag数量呈周期上升。约5分钟,到120万条。然后急速下降。5分钟后再次上升到120万。呈周期性。
  doris 目前能调整的参数不多。
  试问,我该如何加快FE调度JobScheduler,加快调度Task ,快速消费kafka。
  







Reply via email to