Spark----關於數據傾斜

如何定位數據傾斜 數據傾斜一般會發生在shuffle過程中。很大程度上是你使用了可能會觸發shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。 spark 調優: 調優工具: 1、Spark Web UI       Spark內置應用運行監控工具 2、Ganglia      
相關文章
相關標籤/搜索