(一)、hadoop的內置數據類型都實現了writablecompareable,以便序列化和網絡傳輸及文件存儲網絡
a自定義數據類型做爲輸入函數
1.實現writable接口oop
2.若是給數據須要比較大小時,實現writablecompareable接口.net
b數據輸入格式和recordreaderorm
數據輸入格式(inputformat)用於描述maoreduce做業中的數據輸入規範,mapreduce依靠數據輸入規範完成數據文件的輸入分塊(inputsplit),從輸入分塊中將數據記錄逐一讀出,並轉換爲map過程當中的輸入鍵值對blog
自定義輸入格式:https://blog.csdn.net/young_so_nice/article/details/51307213繼承
https://blog.csdn.net/bbaiggey/article/details/53324218接口
流程: 1.自定義XXinputformat繼承FileTextFormat,在createRecordReader方法裏面返回自定義的XXRecordreaderhadoop
2.自定義XXRecordreader繼承RecordReader,在setkeyvalue和nextkeyvalue實現自身需求get
3.在main函數的運行中指定輸入格式:job.setInputFormatClass(XXinputformat.class)