Hadoop的Map-side join和Reduce-side join

時間 2020-12-25

原文原文鏈接

Hadoop中連接（join）操作很常見，Hadoop「連接」的概念本身，和SQL的「連接」是一致的。SQL的連接，在維基百科中已經說得非常清楚。比如dataset A是關於用戶個人信息的，key是用戶id，value是用戶姓名等等個人信息；dataset B是關於用戶交易記錄的，key是用戶id，value是用戶的交易歷史等信息。我們當然可以對這兩者以共同鍵用戶id爲基準來連接兩邊的數據。首先

>>阅读原文<<