Hadoop 分區函數Partitioner

分區函數 MapReduce的使用者一般會指定Reduce任務和Reduce任務輸出文件的數量(R)。咱們在中間key上使用分區函數來對數據進行分區,以後再輸入到後續任務執行進程。一個缺省的分區函數是使用hash方法(好比,hash(key) mod R)進行分區。hash方法能產生很是平衡的分區。然而,有的時候,其它的一些分區函數對key值進行的分區將很是有用。好比,輸出的key值是URLs,咱
相關文章
相關標籤/搜索