MapReduce實現之Reduce端重分區Join操作優化!

在前一篇文章中(鏈接參加文末),我們介紹了map端Join操作的幾大方法。一般情況下,我會推薦企業選擇map端的Join操作,這可以節省不小的成本。但是,如果數據集過於龐大以至於沒有合適的map端連接方法適用,則需要使用MapReduce中的shuffle對數據進行排序和連接,並考慮選擇Reduce端的Join操作。 一、重分區Join操作(Reduce端) 本文介紹的第一種方法是最基本的重分區J
相關文章
相關標籤/搜索