Hadoop MapReduce經常使用輸入輸出格式

時間 2019-11-10

標籤 hadoop mapreduce 經常使用輸入輸出格式欄目 Hadoop 简体版

原文原文鏈接

這裏介紹MapReduce經常使用的幾種輸入輸出格式。app

　　 1) TextInputFormat 爲默認格式。不特意指明 MapReduce 的輸入格式時，默認使用 TextInputFormat 的輸入格式。它讀取文件的行。　oop

　　　「鍵」 (LongWritable)爲行的字節偏移量（即所在行的字符個數），「值」 (Text)爲行的內容。性能

　　2) SequenceFileInputFormat 爲Hadoop定義的高性能二進制格式。所以當有多個MapReduce任務在順序執行時，使用SequenceFileInputFormat 的輸入格式能夠提升Mapper對其的讀取速度。spa

　 3)KeyValueInputFormat 將文件的行解析爲鍵值對，它的「鍵」爲第一個tab字符前的全部字符（Text）；「值」爲行剩下的內容（Text）。orm

　　1) TextOutputFormat 爲默認的輸出格式，以「key \t value」的方式輸出行。it

　　2) SequenceFileOutputFormat 輸出的是二進制文件，該二進制文件能夠做爲子MapReduce做業的輸入。table

注( ¯(∞)¯ )：鈉離子是第一次寫博文，但願來記錄本身所學。是小菜鳥一隻。若有錯誤，請幫忙指出~謝謝~之後有更多的理解會再添加上去的！二進制

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。