hadoop知識點總結

時間 2019-12-10

標籤 hadoop 知識總結欄目 Hadoop 简体版

原文原文鏈接

（一）、hadoop的內置數據類型都實現了writablecompareable，以便序列化和網絡傳輸及文件存儲網絡

a自定義數據類型做爲輸入函數

1.實現writable接口oop

2.若是給數據須要比較大小時，實現writablecompareable接口.net

b數據輸入格式和recordreaderorm

數據輸入格式（inputformat）用於描述maoreduce做業中的數據輸入規範，mapreduce依靠數據輸入規範完成數據文件的輸入分塊（inputsplit），從輸入分塊中將數據記錄逐一讀出，並轉換爲map過程當中的輸入鍵值對blog

流程： 1.自定義XXinputformat繼承FileTextFormat，在createRecordReader方法裏面返回自定義的XXRecordreaderhadoop

　　　　2.自定義XXRecordreader繼承RecordReader，在setkeyvalue和nextkeyvalue實現自身需求get

　　　　3.在main函數的運行中指定輸入格式：job.setInputFormatClass（XXinputformat.class）

相關標籤/搜索