MapReduce中如何處理跨行的Block和InputSplit

時間 2020-05-15

標籤 mapreduce 如何處理跨行 block inputsplit 欄目 Hadoop 简体版

原文原文鏈接

1 提出問題 Map最小輸入數據單元是InputSplit。好比對於那麼對於一個記錄行形式的文本大於128M時，HDFS將會分紅多塊存儲（block），同時分片並不是到每行行尾。這樣就會產生兩個問題：一、Hadoop的一個Block默認是128M，那麼對於一個記錄行形式的文本，會不會形成一行記錄被分到兩個Block當中？二、在把文件從Block中讀取出來進行切分時，會不會形成一行記錄被分紅兩個

>>阅读原文<<