Spark項目實戰-數據傾斜解決方案之將reduce join轉換爲map join

一、reduce端join操作原理 二、map端join操作原理  三、適用場景 如果兩個RDD要進行join,其中一個RDD是比較小的。一個RDD是100萬數據,一個RDD是1萬數據。(一個RDD是1億數據,一個RDD是100萬數據) 其中一個RDD必須是比較小的,broadcast出去那個小RDD的數據以後,就會在每個executor的block manager中都駐留一份。要確保你的內存足夠
相關文章
相關標籤/搜索