第三講：安裝hadoop並配置本地模式進行詞頻分析

時間 2020-07-24

原文原文鏈接

hadoop有三種運行模式，一種是本地模式，一種是僞分佈式模式，一種是徹底分佈式模式，本節課咱們來安裝好hadoop而且配置本地模式並進行文本里面的字符統計分析。視頻講解地址：https://ke.qq.com/course/2837340java

步驟以下：bash

一、確保jdk安裝正確

二、安裝並配置hadoop

（1）採用root帳號登錄（或者其餘管理員帳號登錄，若是用非管理帳戶的話，就須要用終端命令行操做，比不上直接界面操做方便）編輯器

（2）把安裝包放進Centos下面的/etc/hadoop文件夾內：在etc文件夾下面建立hadoop文件夾，而後把安裝包拖拽進去（VMware Workstation Pro），或者經過SecureCRT工具將安裝包導入到hadoop文件夾內。分佈式

安裝包地址：連接：https://pan.baidu.com/s/1AJLenl05gs75XOQJisOyFg 提取碼：4t4d函數

把安裝包解壓到本地，以下圖所示：工具

效果以下,解壓後的壓縮包能夠刪掉了：oop

咱們展開hadoop-2.9.2文件夾可見如下文件夾：spa

各文件夾做用以下：命令行

bin目錄：存放對Hadoop相關服務（HDFS,YARN）進行操做的腳本3d

etc目錄：Hadoop的配置文件目錄，存放Hadoop的配置文件

lib目錄：存放Hadoop的本地庫（對數據進行壓縮解壓縮功能）

sbin目錄：存放啓動或中止Hadoop相關服務的腳本

share目錄：存放Hadoop的依賴jar包、文檔、和官方案例

（3）配置hadoop環境變量

首先打開/etc/profile 這個系統配置文件，能夠經過vi編輯器打開，也能夠直接用gedit編輯器打開，圖形界面經過gedit很是方便。

在文件的末尾新增配置內容以下（末尾三行）：

倒數第三行含義：註釋，告訴別人你下面要配置hadoop_home相關參數

倒數第二行含義：設置Hadoop_home的值，也就是咱們hadoop的安裝路徑（包含bin路徑和sbin路徑的那個目錄就是hadoop安裝路徑）。 export 命令用於設置環境變量。

倒數第一行含義：設置Path的值，也就是咱們全部的但願直接載入系統的環境變量。注意這裏的分割符號是冒號而不是分號。意思是在原有的Path的內容基礎上新增hadoop_home下面的bin路徑和sbin路徑。

最後保存，能夠直接點擊上面的「save」按鈕，或直接ctrl+s

保存後，還須要讓配置文件生效，使用的命令是：source filename 意思是在當前bash環境下讀取並執行FileName中的命令。

因此咱們要讓profile生效，執行以下（下面第一行代碼）：

最後看是否安裝配置成功，則能夠經過查看hadoop的版本，下面的第二行就是了。

三、進行字符分析

本次用的是本地模式，在hadoop安裝根目錄下的share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar 這個包裏面有wordcount能夠實現詞頻統計。WordCount能夠說是MapReduce中的helloworld了，單詞計數主要完成的功能是:統計一系列文本文件中每一個單詞出現的次數，經過完成這個簡單程序讓讀者摸清 MapReduce 程序的基本結構。特別是對於每個階段的函數執行所產生的鍵值對。

（1）先在本地新建一個要被統計的文本文件。下面是在/etc/hadoop/下面新建一個examples文件夾（其實你新建在哪裏都得）

而後在examples文件夾中新建helloword.txt文件

hellowrod.txt經過vi或gedit編輯器寫一些內容並保存：

（2）調用wordcount來作統計

採用命令# hadoop jar jar地址要分析的文件地址輸出結果地址

hadoop jar能夠看作是java -jar的升級，能夠和它同樣帶參數，像程序同樣的解析，不一樣的是hadoop jar運行的jar包它會依賴於hadoop安裝目錄下面的一些環境，而且你jar包裏指定了依賴了別的版本的jar包，hadoop jar會優先跑到它本身的share/hadoop/*目錄下面去使用類，有的狀況若是出現衝突，裏面版本低於使用的，能夠把hadoop裏面相應的jar包刪除。

以上語句意思是我已經經過cd 命令進入了hadoop安裝目錄。

以上語句意思是：調用hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar （注意若是不是/etc/hadoop這個目錄下，則mapreduce-examples-2.9.2.jar 的路徑要寫全）裏面的wordcount功能來分析 examples/helloword.txt（注意若是不是/etc/hadoop這個目錄下，則文本文件的路徑要寫全）裏面的詞頻數據，而後把結果輸出到當前目錄下面的resultCount文件夾裏面（系統會自動創建這個文件夾）。

運行後，咱們能夠看到/etc/hadoop/目錄下面多了一個resultCount文件夾

（3）查看統計結果

打開resultCount文件夾，能夠看到裏面有兩個文件，

其中，_SUCCESS文件說明執行成功，這個文件裏面是空的，相似一個標註。

另外的一個part-r-00000文件裏面就有詞頻數據：