Hadoop MapReduce經常使用輸入輸出格式

這裏介紹MapReduce經常使用的幾種輸入輸出格式。app

  • 三種經常使用的輸入格式:TextInputFormat , SequenceFileInputFormat , KeyValueInputFormat .

   1) TextInputFormat 爲默認格式。不特意指明 MapReduce 的輸入格式時,默認使用 TextInputFormat 的輸入格式。它讀取文件的行。 oop

    「 鍵」 (LongWritable)爲行的字節偏移量(即所在行的字符個數),「值」 (Text)爲行的內容。性能

  2) SequenceFileInputFormat 爲Hadoop定義的高性能二進制格式。所以當有多個MapReduce任務在順序執行時,使用SequenceFileInputFormat 的輸入格式能夠提升Mapper對其的讀取速度。spa

     3)KeyValueInputFormat 將文件的行解析爲鍵值對,它的「鍵」爲第一個tab字符前的全部字符(Text);「值」爲 行剩下的內容(Text)。orm

  • 兩種經常使用的輸出格式:TextOutputFormat , SequenceFileOutputFormat .

  1) TextOutputFormat 爲默認的輸出格式,以「key \t value」的方式輸出行。it

  2) SequenceFileOutputFormat 輸出的是二進制文件,該二進制文件能夠做爲子MapReduce做業的輸入。table

 

 

 

注( ¯(∞)¯ ):鈉離子是第一次寫博文,但願來記錄本身所學。是小菜鳥一隻。若有錯誤,請幫忙指出~謝謝~之後有更多的理解會再添加上去的!二進制

相關文章
相關標籤/搜索