Hadoop之MR的調優性能

在工做過程當中遇到這樣一個問題:就是在map的時候須要讀取大概1T左右的數據,在用集羣的自己的設置以外沒有設置任何參數時發現就光map(純粹就是一個轉發函數)就要跑上兩個小時。網絡 都說讓MR的分區塊大小和Hadoop集羣中的hdfs塊大小一致,這樣保證數據不出現跨網絡的拷貝,其實也用不着一個MR的程序大小和hdfs塊大小一致,由於從hdfs的數據存儲的架構來看,其有不少的hdfs塊是放在了同一個
相關文章
相關標籤/搜索