轉載--Job的數據輸入格式化器—InputFormat

時間 2020-12-27

原文原文鏈接

Hadoop被設計用來處理海量數據，這種數據可以是結構化的，半結構化的，甚至是一些無結構化的文本數據(這些數據可能存儲在HDFS文件中，也可能存放在DB中)。它處理數據的核心就是map-reduce模型，但是，無論是map還是reduce，它們的輸入輸出數據都是key-value對的形式，這種key-value對的形式我們可以看做是結構化的數據。同時，對於reduce的輸入，當然就是map的輸出

>>阅读原文<<