hadoop中的半連接

4.1.3 半連接(Semi-join) 假設一個場景,需要連接兩個很大的數據集,例如,用戶日誌和OLTP的用戶數據。任何一個數據集都不是足夠小到可以緩存在map作業的內存中。這樣看來,似乎就不能使用reduce端的連接了。儘管不是必須,可以思考以下問題:如果在數據集的連接操作中,一個數據集中有的記錄由於因爲無法連接到另一個數據集的記錄,將會被移除。這樣還需要將整個數據集放到內存中嗎?在這個例子中
相關文章
相關標籤/搜索