Map Join和Reduce Join的區別以及代碼實現

MapReduce Join 對兩份數據data1和data2進行關鍵詞連接是一個很通用的問題,如果數據量比較小,可以在內存中完成連接。 如果數據量比較大,在內存進行連接操會發生OOM。mapreduce join可以用來解決大數據的連接。  1 思路  1.1 reduce join 在map階段, 把關鍵字作爲key輸出,並在value中標記出數據是來自data1還是data2。因爲在shuf
相關文章
相關標籤/搜索