MapReduce原理之---處理數據詳細流程

1、任務切分:對文件進行邏輯切片,切片按照範圍劃分,默認128M一片。 一個文件至少有一個切片,每個切片運行一個maptask,如果文件超過128M,同一個輸入文件會有多個maptask運行;爲減少資源浪費,如果最後一個切片大小小於1.1*128M,將不會被切分處理。 2、輸入對象:FileInputFormat.setInputPaths()方法,指定數據輸入路徑;輸入目錄中可以有單個或多個文件
相關文章
相關標籤/搜索