MapReduce中FileInputFormat和CombineTextInputFormat切片輸入機制

首先要知道兩個概念:      數據塊:Block是HDFS物理上把數據分成一塊一塊。      數據切片:數據切片只是在邏輯上對輸入進行分片,並不會在磁盤上將其切分成片進行存儲。 MapTask的並行度決定Map階段的任務處理併發度,進而影響到整個Job的處理速度,而每個切片都會分配給一個MapTask進行處理,但卻不是並行MapTask數越多越快(思考:1G的數據,啓動8個MapTask,可以
相關文章
相關標籤/搜索