Hadoop InputFormat淺析

在執行一個Job的時候,Hadoop會將輸入數據劃分成N個Split,然後啓動相應的N個Map程序來分別處理它們。 數據如何劃分?Split如何調度(如何決定處理Split的Map程序應該運行在哪臺TaskTracker機器上)?劃分後的數據又如何讀取?這就是本文所要討論的問題。 先從一張經典的MapReduce工作流程圖出發: 1、運行mapred程序; 2、本次運行將生成一個Job,於是Job
相關文章
相關標籤/搜索