Spark性能調優--調度與分區優化

時間 2019-12-05

標籤 spark 性能調度分區優化欄目 Spark 简体版

原文原文鏈接

1.小分區合併問題在用戶使用Spark的過程當中，經常會使用filter算子進行數據過濾。而頻繁的過濾或者過濾掉的數據量過大就會產生問題，形成大量小分區的產生（每一個分區數據量小）。因爲Spark是每一個數據分區都會分配一個任務執行，若是任務過多，則每一個任務處理的數據量很小，會形成線程切換開銷大，不少任務等待執行，並行度不高的問題，是很不經濟的。java 例如：緩存 val rdd2 = rd

>>阅读原文<<