本教程由廈門大學數據庫實驗室 / 給力星出品,轉載請註明。本教程適合於原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要參考了官方安裝教程,步驟詳細,輔以適當說明,相信按照步驟來,都能順利安裝並運行Hadoop。另外有Hadoop安裝配置簡略版方便有基礎的讀者快速完成安裝。此外,但願讀者們能多去了解一些 Linux 的知識,之後出現問題時才能自行解決。html
爲了方便學習本教程,請讀者們利用Linux系統中自帶的firefox瀏覽器打開本指南進行學習。
Hadoop安裝文件,能夠到Hadoop官網下載,也能夠點擊這裏從百度雲盤下載,進入該百度雲盤連接後,找到Hadoop安裝文件hadoop-2.7.1.tar.gz(本教程也能夠用於安裝Hadoop 2.7.1版本)。java
本教程使用 Ubuntu 14.04 64位 做爲系統環境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位都可),請自行安裝系統(可參考使用VirtualBox安裝Ubuntu)。node
若是用的是 CentOS/RedHat 系統,請查看相應的CentOS安裝Hadoop教程_單機僞分佈式配置。linux
本教程基於原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下驗證經過,可適合任何 Hadoop 2.x.y 版本,如 Hadoop 2.7.一、2.6.三、2.4.1等。正則表達式
使用本教程請確保系統處於聯網狀態下,部分高校使用星網銳捷鏈接網絡,可能致使虛擬機沒法聯網,那麼建議您使用雙系統安裝ubuntu,而後再使用本教程!shell
Hadoop 有兩個主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比較老的教材上用的多是 0.20 這樣的版本。Hadoop 2.x 版本在不斷更新,本教程都可適用。若是需安裝 0.20,1.2.1這樣的版本,本教程也能夠做爲參考,主要差異在於配置項,配置請參考官網教程或其餘教程。數據庫
新版是兼容舊版的,書上舊版本的代碼應該可以正常運行(我本身沒驗證,歡迎驗證反饋)。apache
裝好了 Ubuntu 系統以後,在安裝 Hadoop 前還須要作一些必備工做。ubuntu
若是你安裝 Ubuntu 的時候不是用的 「hadoop」 用戶,那麼須要增長一個名爲 hadoop 的用戶。vim
首先按 ctrl+alt+t 打開終端窗口,輸入以下命令建立新用戶 :
這條命令建立了能夠登錄的 hadoop 用戶,並使用 /bin/bash 做爲 shell。
本文中會大量使用到sudo命令。sudo是ubuntu中一種權限管理機制,管理員能夠受權給一些普通用戶去執行一些須要root權限執行的操做。當使用sudo命令時,就須要輸入您當前用戶的密碼.
在Linux的終端中輸入密碼,終端是不會顯示任何你當前輸入的密碼,也不會提示你已經輸入了多少字符密碼。而在windows系統中,輸入密碼通常都會以「*」表示你輸入的密碼字符
ubuntu中終端輸入的命令通常都是使用英文輸入。linux中英文的切換方式是使用鍵盤「shift」鍵來切換,也能夠點擊頂部菜單的輸入法按鈕進行切換。ubuntu自帶的Sunpinyin中文輸入法已經足夠讀者使用。
在Ubuntu終端窗口中,複製粘貼的快捷鍵須要加上 shift,即粘貼是 ctrl+shift+v。
接着使用以下命令設置密碼,可簡單設置爲 hadoop,按提示輸入兩次密碼:
可爲 hadoop 用戶增長管理員權限,方便部署,避免一些對新手來講比較棘手的權限問題:
最後註銷當前用戶(點擊屏幕右上角的齒輪,選擇註銷),返回登錄界面。在登錄界面中選擇剛建立的 hadoop 用戶進行登錄。
用 hadoop 用戶登陸後,咱們先更新一下 apt,後續咱們使用 apt 安裝軟件,若是沒更新可能有一些軟件安裝不了。按 ctrl+alt+t 打開終端窗口,執行以下命令:
若出現以下 「Hash校驗和不符」 的提示,可經過更改軟件源來解決。若沒有該問題,則不須要更改。從軟件源下載某些軟件的過程當中,可能因爲網絡方面的緣由出現無法下載的狀況,那麼建議更改軟件源。在學習Hadoop過程當中,即便出現「Hash校驗和不符」的提示,也不會影響Hadoop的安裝。
點擊查看:如何更改軟件源
後續須要更改一些配置文件,我比較喜歡用的是 vim(vi加強版,基本用法相同),建議安裝一下(若是你實在還不會用 vi/vim 的,請將後面用到 vim 的地方改成 gedit,這樣可使用文本編輯器進行修改,而且每次文件更改完成後請關閉整個 gedit 程序,不然會佔用終端):
安裝軟件時若須要確認,在提示處輸入 y 便可。
點擊查看:vim簡單操做指南
集羣、單節點模式都須要用到 SSH 登錄(相似於遠程登錄,你能夠登陸某臺 Linux 主機,而且在上面運行命令),Ubuntu 默認已安裝了 SSH client,此外還須要安裝 SSH server:
安裝後,可使用以下命令登錄本機:
此時會有以下提示(SSH首次登錄提示),輸入 yes 。而後按提示輸入密碼 hadoop,這樣就登錄到本機了。
但這樣登錄是須要每次輸入密碼的,咱們須要配置成SSH無密碼登錄比較方便。
首先退出剛纔的 ssh,就回到了咱們原先的終端窗口,而後利用 ssh-keygen 生成密鑰,並將密鑰加入到受權中:
在 Linux 系統中,~ 表明的是用戶的主文件夾,即 「/home/用戶名」 這個目錄,如你的用戶名爲 hadoop,則 ~ 就表明 「/home/hadoop/」。 此外,命令中的 # 後面的文字是註釋,只須要輸入前面命令便可。
此時再用 ssh localhost
命令,無需輸入密碼就能夠直接登錄了,以下圖所示。
Java環境可選擇 Oracle 的 JDK,或是 OpenJDK,按中說的,新版本在 OpenJDK 1.7 下是沒問題的。爲圖方便,這邊直接經過命令安裝 OpenJDK 7。
下面有兩種安裝JDK的方式,能夠任選一種,若是第1種失敗,就選擇第2種。推薦直接使用第2種安裝方式。
(1)第1種安裝JDK方式:
安裝好 OpenJDK 後,須要找到相應的安裝路徑,這個路徑是用於配置 JAVA_HOME 環境變量的。執行以下命令:
該命令會輸出一個路徑,除去路徑末尾的 「/bin/javac」,剩下的就是正確的路徑了。如輸出路徑爲 /usr/lib/jvm/java-7-openjdk-amd64/bin/javac,則咱們須要的路徑爲 /usr/lib/jvm/java-7-openjdk-amd64。
接着須要配置一下 JAVA_HOME 環境變量,爲方便,咱們在 ~/.bashrc 中進行設置(擴展閱讀: 設置Linux環境變量的方法和區別):
在文件最前面添加以下單獨一行(注意 = 號先後不能有空格),將「JDK安裝路徑」改成上述命令獲得的路徑,並保存:
以下圖所示(該文件本來可能不存在,內容爲空,這不影響):
接着還須要讓該環境變量生效,執行以下代碼:
設置好後咱們來檢驗一下是否設置正確:
若是設置正確的話,$JAVA_HOME/bin/java -version
會輸出 java 的版本信息,且和 java -version
的輸出結果同樣,以下圖所示:
這樣,Hadoop 所需的 Java 運行環境就安裝好了。
(2)第2種安裝JDK方式
根據大量電腦安裝Java環境的狀況咱們發現,部分電腦按照上述的第一種安裝方式會出現安裝失敗的狀況,這時,能夠採用這裏介紹的另一種安裝方式,命令以下:
上述安裝過程須要訪問網絡下載相關文件,請保持聯網狀態。安裝結束之後,須要配置JAVA_HOME環境變量,請在Linux終端中輸入下面命令打開當前登陸用戶的環境變量配置文件.bashrc:
在文件最前面添加以下單獨一行(注意,等號「=」先後不能有空格),而後保存退出:
export JAVA_HOME=/usr/lib/jvm/default-java
接下來,要讓環境變量當即生效,請執行以下代碼:
執行上述命令後,能夠檢驗一下是否設置正確:
至此,就成功安裝了Java環境。下面就能夠進入Hadoop的安裝。
Hadoop 2 能夠經過 http://mirror.bit.edu.cn/apache/hadoop/common/ 或者 http://mirrors.cnnic.cn/apache/hadoop/common/ 下載,通常選擇下載最新的穩定版本,即下載 「stable」 下的 hadoop-2.x.y.tar.gz 這個格式的文件,這是編譯好的,另外一個包含 src 的則是 Hadoop 源代碼,須要進行編譯纔可以使用。
截止到2015年12月9日,Hadoop官方網站已經更新到2.7.1版本。對於2.6.0以上版本的Hadoop,仍能夠參照此教程學習,可放心下載官網最新版本的Hadoop。
下載完 Hadoop 文件後通常就能夠直接使用。可是若是網絡很差,可能會致使下載的文件缺失,可使用 md5 等檢測工具能夠校驗文件是否完整。
點擊查看:如何校驗下載的文件是否完整
咱們選擇將 Hadoop 安裝至 /usr/local/ 中:
Hadoop 解壓後便可使用。輸入以下命令來檢查 Hadoop 是否可用,成功則會顯示 Hadoop 版本信息:
請務必注意命令中的相對路徑與絕對路徑,本文後續出現的 ./bin/...
,./etc/...
等包含 ./ 的路徑,均爲相對路徑,以 /usr/local/hadoop 爲當前目錄。例如在 /usr/local/hadoop 目錄中執行 ./bin/hadoop version
等同於執行 /usr/local/hadoop/bin/hadoop version
。能夠將相對路徑改爲絕對路徑來執行,但若是你是在主文件夾 ~ 中執行 ./bin/hadoop version
,執行的會是 /home/hadoop/bin/hadoop version
,就不是咱們所想要的了。
Hadoop 默認模式爲非分佈式模式(本地模式),無需進行其餘配置便可運行。非分佈式即單 Java 進程,方便進行調試。
如今咱們能夠執行例子來感覺下 Hadoop 的運行。Hadoop 附帶了豐富的例子(運行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar
能夠看到全部例子),包括 wordcount、terasort、join、grep 等。
在此咱們選擇運行 grep 例子,咱們將 input 文件夾中的全部文件做爲輸入,篩選當中符合正則表達式 dfs[a-z.]+ 的單詞並統計出現的次數,最後輸出結果到 output 文件夾中。
執行成功後以下所示,輸出了做業的相關信息,輸出的結果是符合正則的單詞 dfsadmin 出現了1次
注意,Hadoop 默認不會覆蓋結果文件,所以再次運行上面實例會提示出錯,須要先將 ./output
刪除。
Hadoop 能夠在單節點上以僞分佈式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既做爲 NameNode 也做爲 DataNode,同時,讀取的是 HDFS 中的文件。
Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/ 中,僞分佈式須要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每一個配置以聲明 property 的 name 和 value 的方式來實現。
修改配置文件 core-site.xml (經過 gedit 編輯會比較方便: gedit ./etc/hadoop/core-site.xml
),將當中的
修改成下面配置:
一樣的,修改配置文件 hdfs-site.xml:
Hadoop 的運行方式是由配置文件決定的(運行 Hadoop 時會讀取配置文件),所以若是須要從僞分佈式模式切換回非分佈式模式,須要刪除 core-site.xml 中的配置項。
此外,僞分佈式雖然只須要配置 fs.defaultFS 和 dfs.replication 就能夠運行(官方教程如此),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄爲 /tmp/hadoo-hadoop,而這個目錄在重啓時有可能被系統清理掉,致使必須從新執行 format 才行。因此咱們進行了設置,同時也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,不然在接下來的步驟中可能會出錯。
配置完成後,執行 NameNode 的格式化:
成功的話,會看到 「successfully formatted」 和 「Exitting with status 0」 的提示,若爲 「Exitting with status 1」 則是出錯。
若是在這一步時提示 Error: JAVA_HOME is not set and could not be found. 的錯誤,則說明以前設置 JAVA_HOME 環境變量那邊就沒設置好,請按教程先設置好 JAVA_HOME 變量,不然後面的過程都是進行不下去的。若是已經按照前面教程在.bashrc文件中設置了JAVA_HOME,仍是出現 Error: JAVA_HOME is not set and could not be found. 的錯誤,那麼,請到hadoop的安裝目錄修改配置文件「/usr/local/hadoop/etc/hadoop/hadoop-env.sh」,在裏面找到「export JAVA_HOME=${JAVA_HOME}」這行,而後,把它修改爲JAVA安裝路徑的具體地址,好比,「export JAVA_HOME=/usr/lib/jvm/default-java」,而後,再次啓動Hadoop。
接着開啓 NameNode 和 DataNode 守護進程。
若出現以下SSH提示,輸入yes便可。
啓動時可能會出現以下 WARN 提示:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable WARN 提示能夠忽略,並不會影響正常使用。
若是啓動 Hadoop 時遇到輸出很是多「ssh: Could not resolve hostname xxx」的異常狀況,以下圖所示:
這個並非 ssh 的問題,可經過設置 Hadoop 環境變量來解決。首先按鍵盤的 ctrl + c 中斷啓動,而後在 ~/.bashrc 中,增長以下兩行內容(設置過程與 JAVA_HOME 變量同樣,其中 HADOOP_HOME 爲 Hadoop 的安裝目錄):
保存後,務必執行 source ~/.bashrc
使變量設置生效,而後再次執行 ./sbin/start-dfs.sh
啓動 Hadoop。
啓動完成後,能夠經過命令 jps
來判斷是否成功啓動,若成功啓動則會列出以下進程: 「NameNode」、」DataNode」 和 「SecondaryNameNode」(若是 SecondaryNameNode 沒有啓動,請運行 sbin/stop-dfs.sh 關閉進程,而後再次嘗試啓動嘗試)。若是沒有 NameNode 或 DataNode ,那就是配置不成功,請仔細檢查以前步驟,或經過查看啓動日誌排查緣由。
通常能夠查看啓動日誌來排查緣由,注意幾點:
此外,如果 DataNode 沒有啓動,可嘗試以下的方法(注意這會刪除 HDFS 中原有的全部數據,若是原有的數據很重要請不要這樣作):
成功啓動後,能夠訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,還能夠在線查看 HDFS 中的文件。
上面的單機模式,grep 例子讀取的是本地數據,僞分佈式讀取的則是 HDFS 上的數據。要使用 HDFS,首先須要在 HDFS 中建立用戶目錄:
教材《大數據技術原理與應用》的命令是以」./bin/hadoop dfs」開頭的Shell命令方式,實際上有三種shell命令方式。
1. hadoop fs
2. hadoop dfs
3. hdfs dfs
hadoop fs適用於任何不一樣的文件系統,好比本地文件系統和HDFS文件系統
hadoop dfs只能適用於HDFS文件系統
hdfs dfs跟hadoop dfs的命令做用同樣,也只能適用於HDFS文件系統
接着將 ./etc/hadoop 中的 xml 文件做爲輸入文件複製到分佈式文件系統中,即將 /usr/local/hadoop/etc/hadoop 複製到分佈式文件系統中的 /user/hadoop/input 中。咱們使用的是 hadoop 用戶,而且已建立相應的用戶目錄 /user/hadoop ,所以在命令中就可使用相對路徑如 input,其對應的絕對路徑就是 /user/hadoop/input:
複製完成後,能夠經過以下命令查看文件列表:
僞分佈式運行 MapReduce 做業的方式跟單機模式相同,區別在於僞分佈式讀取的是HDFS中的文件(能夠將單機步驟中建立的本地 input 文件夾,輸出結果 output 文件夾都刪掉來驗證這一點)。
查看運行結果的命令(查看的是位於 HDFS 中的輸出結果):
結果以下,注意到剛纔咱們已經更改了配置文件,因此運行結果不一樣。
咱們也能夠將運行結果取回到本地:
Hadoop 運行程序時,輸出目錄不能存在,不然會提示錯誤 「org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists」 ,所以若要再次執行,須要執行以下命令刪除 output 文件夾:
運行 Hadoop 程序時,爲了防止覆蓋結果,程序指定的輸出目錄(如 output)不能存在,不然會提示錯誤,所以運行前須要先刪除輸出目錄。在實際開發應用程序時,可考慮在程序中加上以下代碼,能在每次運行時自動刪除輸出目錄,避免繁瑣的命令行操做:
若要關閉 Hadoop,則運行
下次啓動 hadoop 時,無需進行 NameNode 的初始化,只須要運行 ./sbin/start-dfs.sh
就能夠!
YARN 是 Hadoop 2.x 中的內容,使用林子雨編寫的大數據技術原理與應用教材的讀者,可不用學習YARN內容。
若是對這方便的內容感興趣,可點擊下方查看。
點擊查看:啓動YARN
自此,你已經掌握 Hadoop 的配置和基本使用了。安裝好的Hadoop項目中已經包含了第三章的HDFS,繼續學習第3章HDFS文件系統,請參考以下學習指南:大數據技術原理與應用 第三章 學習指南
在這裏額外講一下 PATH 這個環境變量(可執行 echo $PATH
查看,當中包含了多個目錄)。例如咱們在主文件夾 ~ 中執行 ls
這個命令時,實際執行的是 /bin/ls
這個程序,而不是 ~/ls
這個程序。系統是根據 PATH 這個環境變量中包含的目錄位置,逐一進行查找,直至在這些目錄位置下找到匹配的程序(若沒有匹配的則提示該命令不存在)。
上面的教程中,咱們都是先進入到 /usr/local/hadoop 目錄中,再執行 sbin/hadoop
,實際上等同於運行 /usr/local/hadoop/sbin/hadoop
。咱們能夠將 Hadoop 命令的相關目錄加入到 PATH 環境變量中,這樣就能夠直接經過 start-dfs.sh
開啓 Hadoop,也能夠直接經過 hdfs
訪問 HDFS 的內容,方便平時的操做。
一樣咱們選擇在 ~/.bashrc 中進行設置(vim ~/.bashrc
,與 JAVA_HOME 的設置類似),在文件最前面加入以下單獨一行:
export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin
添加後執行 source ~/.bashrc
使設置生效,生效後,在任意目錄中,均可以直接使用 hdfs
等命令了,讀者不妨如今就執行 hdfs dfs -ls input
查看 HDFS 文件試試看。
在平時的學習中,咱們使用僞分佈式就足夠了。若是須要安裝 Hadoop 集羣,請查看Hadoop集羣安裝配置教程。