spark優化總結

一、注意join的使用,若是有較小的表可考慮使用廣播的方式實現mapjoin,相似MR/HIVE。廣播變量是一個executor一份副本java 二、注意數據傾斜的問題,這個問題在分佈式shuffle操做時都有可能出現,常見幾個場景:緩存 join操做空值量不少時使用隨機值 cout(distinct)操做,拆分紅group by 再count 對數據採樣抽取出傾斜的key,單獨處理,最後作uni
相關文章
相關標籤/搜索