Spark之數據傾斜(三)

數據傾斜解決方案: (六)將reduce join轉換爲map join 對於join這種操作,不光是考慮數據傾斜的問題;即使是沒有數據傾斜問題,也完全可以優先考慮。將reduce join轉map join的技術,犧牲一點內存資源,不會發生shuffle操作,從根源上避免數據傾斜。  如果兩個RDD要進行join,其中一個RDD必須是比較小的,broadcast出去那個小RDD的數據以後,就會在
相關文章
相關標籤/搜索