Hadoop MapReduce中如何處理跨行Block和UnputSplit

時間 2020-05-13

標籤 hadoop mapreduce 如何處理跨行 block unputsplit 欄目 Hadoop 简体版

原文原文鏈接

Hadoop的初學者常常會疑惑這樣兩個問題：1.Hadoop的一個Block默認是64M，那麼對於一個記錄行形式的文本，會不會形成一行記錄被分到兩個Block當中？2.在把文件從Block中讀取出來進行切分時，會不會形成一行記錄被分紅兩個InputSplit，若是被分紅兩個InputSplit，這樣一個InputSplit裏面就有一行不完整的數據，那麼處理這個InputSplit的Mapper會不

>>阅读原文<<