上次的hadoop中的hdfs文件系統中,咱們把hadoop根目錄下面的conf下的全部.xml文件上傳到了hdfs文件系統中,下面咱們就經過mapreduce程序來對單詞進行一下統計 分佈式
首先咱們進入到hadoop的根目錄下面,而後執行以下的命令 oop
hadoop jar hadoop-examples-1.2.1.jar wordcount /opt/data/temp/input/ /opt/data/temp/output/ 測試
以後咱們再查看下文件系統,你會發如今文件系統中多出了一個output的目錄,以下圖,表示已經成功了,上面這個命令 spa
主要是用於單詞的統計. xml
接下來咱們查看一下統計的結果: 排序
上面是經過命令的方式去查看的,固然咱們也能夠經過文件系統去查看,結果是同樣的. hadoop
下面就上面這個圖我稍微解析下。 input
首先是客戶將數據我本身的本地文件上傳到咱們的hdfs分佈式文件系統中,當咱們的用戶運行前面的jar測試程序的時候,首先到hdfs文件系統中拿到這些文件,由於文件系統中有兩個文件,每一個文件對應一個MapReduce程序,每一個程序分別解析文件當中的單詞,也就是從Map到sorter的過程,而後會對解析的這些單詞進行排序處理,也就是從sorter到Reduc的過程,而後Recuce會對排序的單詞進行統計,而後再寫到咱們的HDFS文件系統上。這裏我根據本身的理解去寫的。 文件上傳