Spark性能調優--調度與分區優化

1.小分區合併問題 在用戶使用Spark的過程當中,經常會使用filter算子進行數據過濾。而頻繁的過濾或者過濾掉的數據量過大就會產生問題,形成大量小分區的產生(每一個分區數據量小)。因爲Spark是每一個數據分區都會分配一個任務執行,若是任務過多,則每一個任務處理的數據量很小,會形成線程切換開銷大,不少任務等待執行,並行度不高的問題,是很不經濟的。java 例如:緩存 val rdd2 = rd
相關文章
相關標籤/搜索