SparkStreaming是架構在SparkCore上的一個「應用」,SparkStreaming主要由DStreamGraph、Job的生成、數據的接收和導入以及容錯四大模塊組成,咱們今天就從這四大模塊入手,看看每一個模塊都有什麼樣的調優方式緩存
其實這部分主要是算子的使用優化,這個跟Spark調優的內容是相同,在這一部分能夠優化的內容有架構
這一部分主要涉及到的調優是batchInternal的調整,爲了程序不延遲地執行,合理的batchInternal是必要的app
這一部分主要是針對數據的接受速度進行調優,若是接收速度大於處理數據,那麼程序會走向無限延遲最後崩潰的道路,因此主要的調優在於限速框架
對於receiver和direct approach 方式都通用的
spark.streaming.backpressure.enabled=true; sparkstreaming框架會自動地計算處理速度來控制數據的接受速度,建議開啓性能
主要是數據的容錯方式選擇優化