hadoop-mapreduce2-原理

時間 2021-01-05

原文原文鏈接

運行原理源碼 hadoop-2.6.0-cdh5.7.0-src 問題爲什麼 map stage 需要進行排序？ MR在reduce階段需要分組，將key相同的放在一起進行規約，爲了達到該目的，有兩種算法：hashmap和sort，前者太耗內存，而排序通過外排可對任意數據量分組，只要磁盤夠大就行。map端排序是爲了減輕reduce端排序的壓力。在spark中，除了sort的方法，也提供hash

>>阅读原文<<