MapJoin的簡單實現

MapJoin 適用於有一份數據較小的鏈接狀況。作法是直接把該小份數據直接所有加載到內存當中,按連接關鍵字創建索引。而後大份數據就做爲 MapTask 的輸入,對 map()方法的每次輸入都去內存當中直接去匹配鏈接。而後把鏈接結果按 key 輸出,這種方法要使用 hadoop中的 DistributedCache 把小份數據分佈到各個計算節點,每一個 maptask 執行任務的節點都須要加載該數據
相關文章
相關標籤/搜索