spark優化總結

時間 2019-12-07

標籤 spark 優化總結欄目 Spark 简体版

原文原文鏈接

一、注意join的使用，若是有較小的表可考慮使用廣播的方式實現mapjoin，相似MR/HIVE。廣播變量是一個executor一份副本java 二、注意數據傾斜的問題，這個問題在分佈式shuffle操做時都有可能出現，常見幾個場景：緩存 join操做空值量不少時使用隨機值 cout(distinct)操做，拆分紅group by 再count 對數據採樣抽取出傾斜的key，單獨處理，最後作uni

>>阅读原文<<