從hadoop框架與MapReduce模式中談海量數據處理

時間 2021-01-18

原文原文鏈接

廢話不說直接來一張圖如下：從JVM的角度看Map和Reduce Map階段包括：第一讀數據：從HDFS讀取數據 1、問題:讀取數據產生多少個Mapper？？ Mapper數據過大的話，會產生大量的小文件，由於Mapper是基於虛擬機的，過多的Mapper創建和初始化及關閉虛擬機都會消耗大量的硬件資源； Mapper數太小，併發度過小，Job執行時間過長，無法充分利用分佈式硬件資

>>阅读原文<<