從hadoop框架與MapReduce模式中談海量數據處理

廢話不說直接來一張圖如下: 從JVM的角度看Map和Reduce Map階段包括: 第一讀數據:從HDFS讀取數據 1、問題:讀取數據產生多少個Mapper??     Mapper數據過大的話,會產生大量的小文件,由於Mapper是基於虛擬機的,過多的Mapper創建和初始化及關閉虛擬機都會消耗大量的硬件資源;     Mapper數太小,併發度過小,Job執行時間過長,無法充分利用分佈式硬件資
相關文章
相關標籤/搜索