Spark Streaming 流計算優化記錄(5)-分區與內存的優化

時間 2021-01-12

原文原文鏈接

8. 不一定非得每秒處理一次由於Spark Streaming的原理是micro batch, 因此當batch積累到一定數量時再發放到集羣中計算, 這樣的數據吞吐量會更大些. 這需要在StreamingContext中設置Duration參數. 我們試着把Duration調成兩秒, 這樣Spark就會在接收Kafka的模塊中積累了2秒的數據後, 在調度作業到集羣中計算. 結合上述做過的優化,

>>阅读原文<<