Hadoop InputFormat淺析

時間 2021-01-19

原文原文鏈接

在執行一個Job的時候，Hadoop會將輸入數據劃分成N個Split，然後啓動相應的N個Map程序來分別處理它們。數據如何劃分？Split如何調度（如何決定處理Split的Map程序應該運行在哪臺TaskTracker機器上）？劃分後的數據又如何讀取？這就是本文所要討論的問題。先從一張經典的MapReduce工作流程圖出發： 1、運行mapred程序； 2、本次運行將生成一個Job，於是Job

>>阅读原文<<