Hadoop的運行模式
Hadoop運行模式包括:本地模式、僞分佈式模式以及徹底分佈式模式。html
Hadoop官方網站:http://hadoop.apache.org/正則表達式
2.7.2版本官網:http://hadoop.apache.org/docs/r2.7.2/
文檔:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.htmlapache
Grep案例
在hadoop文件夾下新建input文件夾
進行拷貝配置文件分佈式
命令:在hadoop文件目錄下oop
cp etc/hadoop/*.xml input/
執行測試命令測試
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input/ output/ 'dfs[a-z.]+'
解釋:網站
首先使用hadoop命令 找到jar (指定jar的地址) grep爲測試的案例spa
其次是指定輸入路徑 input/ 均是一些配置文件 output/ 爲輸出路徑(注意:這個文件夾不須要建立)code
最後使用一個正則表達式進行字符的驗證xml
注意:output文件不能建立不然會進行報錯:該文件夾已經存在
執行程序能夠發現(部分):
此時進入output目錄下:
_SUCCESS:表示執行成功
part-r-0000:表示執行以後生成的數據文件
此時查詢part-r-0000查詢匹配的相關正則表達式的內容
wordcount案例
在hadoop目錄下建立wcinput文件夾
統計關鍵詞出現的次數
進行新建立的文件夾目錄下出啊昂見wc.input文件夾
文件地內容:
命令:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput/ wcoutput/
進入wcoutput進行查看