hadoop知識點總結

(一)、hadoop的內置數據類型都實現了writablecompareable,以便序列化和網絡傳輸及文件存儲網絡

a自定義數據類型做爲輸入函數

1.實現writable接口oop

2.若是給數據須要比較大小時,實現writablecompareable接口.net

b數據輸入格式和recordreaderorm

 

數據輸入格式(inputformat)用於描述maoreduce做業中的數據輸入規範,mapreduce依靠數據輸入規範完成數據文件的輸入分塊(inputsplit),從輸入分塊中將數據記錄逐一讀出,並轉換爲map過程當中的輸入鍵值對blog

自定義輸入格式:https://blog.csdn.net/young_so_nice/article/details/51307213繼承

                         https://blog.csdn.net/bbaiggey/article/details/53324218接口

 流程: 1.自定義XXinputformat繼承FileTextFormat,在createRecordReader方法裏面返回自定義的XXRecordreaderhadoop

    2.自定義XXRecordreader繼承RecordReader,在setkeyvalue和nextkeyvalue實現自身需求get

    3.在main函數的運行中指定輸入格式:job.setInputFormatClass(XXinputformat.class)

相關文章
相關標籤/搜索