Hadoop之MR的調優性能

時間 2020-02-09

標籤 hadoop 性能欄目 Hadoop 简体版

原文原文鏈接

在工做過程當中遇到這樣一個問題：就是在map的時候須要讀取大概1T左右的數據，在用集羣的自己的設置以外沒有設置任何參數時發現就光map（純粹就是一個轉發函數）就要跑上兩個小時。網絡都說讓MR的分區塊大小和Hadoop集羣中的hdfs塊大小一致，這樣保證數據不出現跨網絡的拷貝，其實也用不着一個MR的程序大小和hdfs塊大小一致，由於從hdfs的數據存儲的架構來看，其有不少的hdfs塊是放在了同一個

>>阅读原文<<