Hadoop入門(3)_統計單詞在文件中出現的個數

時間 2019-11-17

標籤 hadoop 入門統計單詞文件出現個數欄目 Hadoop 简体版

原文原文鏈接

Linux環境：CentOs6.4 java

Hadoop版本：hadoop-0.20.2 瀏覽器

內容：統計hadoop\bin下的全部文件中單詞出現的個數。 oop

所用到的命令有： ui

//建立input文件夾
./hadoop fs -mkdir input
//將全部的須要統計單詞個數的文件放在input文件夾下
./hadoop fs -put *.sh /input/
//運行wordcount將結果輸出到output文件夾下
./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output 
//驗證某個單詞的個數
grep xxx *.sh
grep xxx *.sh|wc

第一步:肯定HDFS、MapReduce、jobTracker等是否正常啓動。查看http://my.oschina.net/cuitongliang/blog/153458 spa

第二步：在Hadoop文件系統根目錄中建立input文件夾。 .net

執行命令： code

打開網頁查看input文件夾是否建立成功： blog

上圖代表已經成功。 hadoop

第三步：將bin目錄下的全部文件放到hadoop文件系統的input目錄下。 get

執行命令：

經過瀏覽器查看input文件夾下是否已經存在所存放的文件。

第四步：執行wordcount命令統計單詞個數。

回到Hadoop文件夾下，找到統計個數的jar包。如圖，在hadoop-0.20.2目錄下有一個hadoop-0.20.2-examples.jar。

運行命令執行此jar，統計個數。並將輸出結果放在output目錄下。命令以下:

運行成功。

第五步：驗證結果是否正確。經過命令統計某一單詞的個數，與MapReduce統計的個數進行對比。

經過命令查看文件中language單詞的個數爲12個，如圖。

查看MapReduce運行結果，如圖：

運行結果相同。

附：從過頁面查看運行狀態

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<