hadoop-mapreduce2-原理

運行原理 源碼 hadoop-2.6.0-cdh5.7.0-src 問題 爲什麼 map stage 需要進行排序? MR在reduce階段需要分組,將key相同的放在一起進行規約,爲了達到該目的,有兩種算法:hashmap和sort,前者太耗內存,而排序通過外排可對任意數據量分組,只要磁盤夠大就行。map端排序是爲了減輕reduce端排序的壓力。在spark中,除了sort的方法,也提供hash
相關文章
相關標籤/搜索