Broadcast與map進行join,避免shuffle,從而優化spark

適用場景 進行join中至少有一個RDD的數據量比較少(好比幾百M,或者1-2G) 由於,每一個Executor的內存中,都會駐留一份廣播變量的全量數據 Broadcast與map進行join代碼示例 建立RDD val list1 = List((jame,23), (wade,3), (kobe,24)) val list2 = List((jame,cave), (wade,bulls),
相關文章
相關標籤/搜索