第三講:安裝hadoop並配置本地模式進行詞頻分析

hadoop有三種運行模式,一種是本地模式,一種是僞分佈式模式,一種是徹底分佈式模式,本節課咱們來安裝好hadoop而且配置本地模式並進行文本里面的字符統計分析。視頻講解地址:https://ke.qq.com/course/2837340java

步驟以下:bash

一、確保jdk安裝正確

二、安裝並配置hadoop

(1)採用root帳號登錄(或者其餘管理員帳號登錄,若是用非管理帳戶的話,就須要用終端命令行操做,比不上直接界面操做方便)編輯器

(2)把安裝包放進Centos下面的/etc/hadoop文件夾內:在etc文件夾下面建立hadoop文件夾,而後把安裝包拖拽進去(VMware Workstation Pro),或者經過SecureCRT工具將安裝包導入到hadoop文件夾內。分佈式

安裝包地址:連接:https://pan.baidu.com/s/1AJLenl05gs75XOQJisOyFg   提取碼:4t4d函數

把安裝包解壓到本地,以下圖所示:工具

效果以下,解壓後的壓縮包能夠刪掉了:oop

咱們展開hadoop-2.9.2文件夾可見如下文件夾:spa

各文件夾做用以下:命令行

bin目錄:存放對Hadoop相關服務(HDFS,YARN)進行操做的腳本3d

etc目錄:Hadoop的配置文件目錄,存放Hadoop的配置文件

lib目錄:存放Hadoop的本地庫(對數據進行壓縮解壓縮功能)

sbin目錄:存放啓動或中止Hadoop相關服務的腳本

share目錄:存放Hadoop的依賴jar包文檔和官方案例

(3)配置hadoop環境變量

首先打開/etc/profile 這個系統配置文件,能夠經過vi編輯器打開,也能夠直接用gedit編輯器打開,圖形界面經過gedit很是方便。

在文件的末尾新增配置內容以下(末尾三行):

倒數第三行含義:註釋,告訴別人你下面要配置hadoop_home相關參數

倒數第二行含義: 設置Hadoop_home的值,也就是咱們hadoop的安裝路徑(包含bin路徑和sbin路徑的那個目錄就是hadoop安裝路徑)。 export 命令用於設置環境變量。

倒數第一行含義:設置Path的值,也就是咱們全部的但願直接載入系統的環境變量。注意這裏的分割符號是冒號而不是分號。意思是在原有的Path的內容基礎上新增hadoop_home下面的bin路徑和sbin路徑。

最後保存,能夠直接點擊上面的「save」按鈕,或直接ctrl+s

保存後,還須要讓配置文件生效,使用的命令是:source  filename  意思是在當前bash環境下讀取並執行FileName中的命令。

因此咱們要讓profile生效,執行以下(下面第一行代碼):

最後看是否安裝配置成功,則能夠經過查看hadoop的版本,下面的第二行就是了。

 

三、進行字符分析

本次用的是本地模式,在hadoop安裝根目錄下的share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar  這個包裏面有wordcount能夠實現詞頻統計。WordCount能夠說是MapReduce中的helloworld了,單詞計數主要完成的功能是:統計一系列文本文件中每一個單詞出現的次數,經過完成這個簡單程序讓讀者摸清 MapReduce 程序的基本結構。 特別是對於每個階段的函數執行所產生的鍵值對。

(1)先在本地新建一個要被統計的文本文件。下面是在/etc/hadoop/下面新建一個examples文件夾(其實你新建在哪裏都得)

而後在examples文件夾中新建helloword.txt文件

hellowrod.txt經過vi或gedit編輯器寫一些內容並保存:

(2)調用wordcount來作統計

採用命令# hadoop  jar  jar地址  要分析的文件地址   輸出結果地址

hadoop jar能夠看作是java -jar的升級,能夠和它同樣帶參數,像程序同樣的解析,不一樣的是hadoop jar運行的jar包它會依賴於hadoop安裝目錄下面的一些環境,而且你jar包裏指定了依賴了別的版本的jar包,hadoop jar會優先跑到它本身的share/hadoop/*目錄下面去使用類,有的狀況若是出現衝突,裏面版本低於使用的,能夠把hadoop裏面相應的jar包刪除。

以上語句意思是我已經經過cd 命令進入了hadoop安裝目錄。

以上語句意思是: 調用hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar  (注意若是不是/etc/hadoop這個目錄下,則mapreduce-examples-2.9.2.jar  的路徑要寫全)裏面的wordcount功能來分析 examples/helloword.txt(注意若是不是/etc/hadoop這個目錄下,則文本文件的路徑要寫全) 裏面的詞頻數據,而後把結果輸出到 當前目錄下面的resultCount文件夾裏面(系統會自動創建這個文件夾)。

運行後,咱們能夠看到/etc/hadoop/目錄下面多了一個resultCount文件夾

(3)查看統計結果

打開resultCount文件夾,能夠看到裏面有兩個文件,

其中,_SUCCESS文件說明執行成功,這個文件裏面是空的,相似一個標註。

另外的一個part-r-00000文件裏面就有詞頻數據:

相關文章
相關標籤/搜索