spark性能優化指南

如何定位致使數據傾斜的代碼 數據傾斜只會發生在shuffle過程當中。這裏給你們羅列一些經常使用的而且可能會觸發shuffle操做的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出現數據傾斜時,可能就是你的代碼中使用了這些算子中的某一個所致使的。web 某個task執行特別慢的狀況 首先要看的
相關文章
相關標籤/搜索