Hadoop入門(3)_統計單詞在文件中出現的個數

          Linux環境:CentOs6.4   java

          Hadoop版本:hadoop-0.20.2 瀏覽器

          內容:統計hadoop\bin下的全部文件中單詞出現的個數。 oop

所用到的命令有: ui

//建立input文件夾
./hadoop fs -mkdir input
//將全部的須要統計單詞個數的文件放在input文件夾下
./hadoop fs -put *.sh /input/
//運行wordcount將結果輸出到output文件夾下
./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output 
//驗證某個單詞的個數
grep xxx *.sh
grep xxx *.sh|wc


第一步:肯定HDFS、MapReduce、jobTracker等是否正常啓動。查看http://my.oschina.net/cuitongliang/blog/153458 spa

第二步:在Hadoop文件系統根目錄中建立input文件夾。 .net

執行命令: code

打開網頁查看input文件夾是否建立成功: blog

上圖代表已經成功。 hadoop

第三步:將bin目錄下的全部文件放到hadoop文件系統的input目錄下。 get

執行命令:

經過瀏覽器查看input文件夾下是否已經存在所存放的文件。

 

第四步:執行wordcount命令統計單詞個數。

  回到Hadoop文件夾下,找到統計個數的jar包。如圖,在hadoop-0.20.2目錄下有一個hadoop-0.20.2-examples.jar。

 

運行命令執行此jar,統計個數。並將輸出結果放在output目錄下。命令以下:

運行成功。

第五步:驗證結果是否正確。經過命令統計某一單詞的個數,與MapReduce統計的個數進行對比。

經過命令查看文件中language單詞的個數爲12個,如圖。

 

查看MapReduce運行結果,如圖:

運行結果相同。

 

附:從過頁面查看運行狀態

相關文章
相關標籤/搜索