大數據離線階段-MapReduce分區問題

maptask的輸出如何分配給reducetask 這就是分區問題 因爲數據在MapTask階段是用鍵值對的形式傳遞的 所以默認的分區規則是 Key的哈希值去模(取餘) key.hashcode()%NumreduceTask==餘數是幾 分區編號就是幾 hash是一個算法,可以保證數據不變的情況下,哈希出來的結就會是一樣。 hash一般作爲校驗數據的完整性而使用,一個完整的大的數據獲取hash值
相關文章
相關標籤/搜索