MapReduce過程詳解及其性能優化

時間 2021-01-12

原文原文鏈接

從JVM的角度看Map和Reduce Map階段包括：第一讀數據：從HDFS讀取數據 1、問題:讀取數據產生多少個Mapper？？ Mapper數據過大的話，會產生大量的小文件，由於Mapper是基於虛擬機的，過多的Mapper創建和初始化及關閉虛擬機都會消耗大量的硬件資源； Mapper數太小，併發度過小，Job執行時間過長，無法充分利用分佈式硬件資源； 2、Mapper數

>>阅读原文<<