Spark Streaming調優 kafka

時間 2019-11-13

標籤 spark streaming kafka 欄目 Spark 简体版

原文原文鏈接

當使用Spark Streaming的Direct方式接受Kafka數據時，若是kafka中的數據過多，會致使spark數據積壓，沒法準時完成做業，甚至OOM。spa

Spark的運行指標及調優的目標

共兩個運行指標：調度延遲與執行延遲。
調優的目標是在SparkStreaming設定的批次時間間隔內， spark可以完整處理完一個批次，而不會出現沒法準時完成做業，數據堆壓等問題。 code

PS：要提高數據處理的吞吐量，就提高kafka的分區數kafka

限制Kafka的最大流量

配置項spark.streaming.kafka.maxRatePerPartition, 設置了每秒鐘從每一個分區中所得到的數據條數的最大值，每一個批次處理的數據條數 = 批次時間 * 分區數 * Nit

背壓機制(back pressure) 彈性地調整Kafka的流量

在上一節中的配置項難以調控，具體的值不易設置，可使用back pressure機制來動態地調整從kafka得到的數據量。 back pressure機制會根據上一批次的運行狀況來動態調整獲取的數據量。
打開back pressure: 設置spark.streaming.backpressure.enabled爲truespark