MapReduce中如何處理跨行的Block和InputSplit

1 提出問題 Map最小輸入數據單元是InputSplit。好比對於那麼對於一個記錄行形式的文本大於128M時,HDFS將會分紅多塊存儲(block),同時分片並不是到每行行尾。這樣就會產生兩個問題: 一、Hadoop的一個Block默認是128M,那麼對於一個記錄行形式的文本,會不會形成一行記錄被分到兩個Block當中? 二、在把文件從Block中讀取出來進行切分時,會不會形成一行記錄被分紅兩個
相關文章
相關標籤/搜索