Hadoop安裝教程_單機/僞分佈式配置_Hadoop2.6.0/Ubuntu14.04（轉）

時間 2019-12-19

標籤 hadoop 安裝教程單機分佈式配置 hadoop2.6.0 ubuntu14.04 ubuntu 欄目 Hadoop 简体版

原文原文鏈接

http://www.powerxing.com/install-hadoop/html

http://blog.csdn.net/beginner_lee/article/details/6429146java

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.htmlnode

當開始着手實踐 Hadoop 時，安裝 Hadoop 每每會成爲新手的一道門檻。儘管安裝其實很簡單，書上有寫到，官方網站也有 Hadoop 安裝配置教程，但因爲對 Linux 環境不熟悉，書上跟官網上簡略的安裝步驟新手每每 Hold 不住。加上網上很多教程也甚是坑，致使新手摺騰老幾天愣是沒裝好，非常打擊學習熱情。linux

本教程適合於原生 Hadoop 2，包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要參考了官方安裝教程，步驟詳細，輔以適當說明，相信按照步驟來，都能順利安裝並運行Hadoop。另外有Hadoop安裝配置簡略版方便有基礎的讀者快速完成安裝。此外，但願讀者們能多去了解一些 Linux 的知識，之後出現問題時才能自行解決。本教程由給力星出品，轉載請註明。正則表達式

環境

本教程使用 Ubuntu 14.04 64位 做爲系統環境（Ubuntu 12.04 也行，32位、64位都可），請自行安裝系統。shell

若是用的是 CentOS/RedHat 系統，請查看相應的CentOS安裝Hadoop教程_單機僞分佈式配置。apache

本教程基於原生 Hadoop 2，在 Hadoop 2.6.0 (stable) 版本下驗證經過，可適合任何 Hadoop 2.x.y 版本，例如 Hadoop 2.4.1。ubuntu

Hadoop版本

Hadoop 有兩個主要版本，Hadoop 1.x.y 和 Hadoop 2.x.y 系列，比較老的教材上用的多是 0.20 這樣的版本。Hadoop 2.x 版本在不斷更新，本教程都可適用。若是需安裝 0.20，1.2.1這樣的版本，本教程也能夠做爲參考，主要差異在於配置項，配置請參考官網教程或其餘教程。vim

新版是兼容舊版的，書上舊版本的代碼應該可以正常運行（我本身沒驗證，歡迎驗證反饋）。centos

裝好了 Ubuntu 系統以後，在安裝 Hadoop 前還須要作一些必備工做。

建立hadoop用戶

若是你安裝 Ubuntu 的時候不是用的「hadoop」用戶，那麼須要增長一個名爲 hadoop 的用戶。

首先按 ctrl+alt+t 打開終端窗口，輸入以下命令建立新用戶 :

sudo useradd -m hadoop -s /bin/bash

這條命令建立了能夠登錄的 hadoop 用戶，並使用 /bin/bash 做爲 shell。

Ubuntu終端複製粘貼快捷鍵

在Ubuntu終端窗口中，複製粘貼的快捷鍵須要加上 shift，即粘貼是 ctrl+shift+v。

接着使用以下命令設置密碼，可簡單設置爲 hadoop，按提示輸入兩次密碼：

sudo passwd hadoop

可爲 hadoop 用戶增長管理員權限，方便部署，避免一些對新手來講比較棘手的權限問題：

sudo adduser hadoop sudo

最後註銷當前用戶（點擊屏幕右上角的齒輪，選擇註銷），在登錄界面使用剛建立的 hadoop 用戶進行登錄。

更新apt

用 hadoop 用戶登陸後，咱們先更新一下 apt，後續咱們使用 apt 安裝軟件，若是沒更新可能有一些軟件安裝不了。按 ctrl+alt+t 打開終端窗口，執行以下命令：

sudo apt-get update

若出現以下「Hash校驗和不符」的提示，可經過更改軟件源來解決。若沒有該問題，則不須要更改。

Ubuntu更新軟件源時遇到Hash校驗和不符的問題

點擊查看：如何更改軟件源

後續須要更改一些配置文件，我比較喜歡用的是 vim（vi加強版，基本用法相同），建議安裝一下（若是你實在還不會用 vi/vim 的，請將後面用到 vim 的地方改成 gedit，這樣可使用文本編輯器進行修改，而且每次文件更改完成後請關閉整個 gedit 程序，不然會佔用終端）：

sudo apt-get install vim

安裝軟件時若須要確認，在提示處輸入 y 便可。

經過命令行安裝軟件

安裝SSH、配置SSH無密碼登錄

集羣、單節點模式都須要用到 SSH 登錄（相似於遠程登錄，你能夠登陸某臺 Linux 主機，而且在上面運行命令），Ubuntu 默認已安裝了 SSH client，此外還須要安裝 SSH server：

sudo apt-get install openssh-server

安裝後，可使用以下命令登錄本機：

ssh localhost

此時會有以下提示(SSH首次登錄提示)，輸入 yes 。而後按提示輸入密碼 hadoop，這樣就登錄到本機了。

SSH首次登錄提示

但這樣登錄是須要每次輸入密碼的，咱們須要配置成SSH無密碼登錄比較方便。

首先退出剛纔的 ssh，就回到了咱們原先的終端窗口，而後利用 ssh-keygen 生成密鑰，並將密鑰加入到受權中：

exit # 退出剛纔的 ssh localhost
cd ~/.ssh/ # 若沒有該目錄，請先執行一次ssh localhost
ssh-keygen -t rsa # 會有提示，都按回車就能夠
cat ./id_rsa.pub >> ./authorized_keys # 加入受權

~的含義

在 Linux 系統中，~ 表明的是用戶的主文件夾，即「/home/用戶名」這個目錄，如你的用戶名爲 hadoop，則 ~ 就表明「/home/hadoop/」。此外，命令中的 # 後面的文字是註釋。

此時再用 ssh localhost 命令，無需輸入密碼就能夠直接登錄了，以下圖所示。

SSH無密碼登陸

安裝Java環境

Java環境可選擇 Oracle 的 JDK，或是 OpenJDK，按http://wiki.apache.org/hadoop/HadoopJavaVersions中說的，新版本在 OpenJDK 1.7 下是沒問題的。爲圖方便，這邊直接經過命令安裝 OpenJDK 7。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

JRE和JDK的區別

JRE（Java Runtime Environment，Java運行環境），是運行 Java 所需的環境。JDK（Java Development Kit，Java軟件開發工具包）即包括 JRE，還包括開發 Java 程序所需的工具和類庫。

安裝好 OpenJDK 後，須要找到相應的安裝路徑，這個路徑是用於配置 JAVA_HOME 環境變量的。執行以下命令：

dpkg -L openjdk-7-jdk | grep '/bin/javac'

該命令會輸出一個路徑，除去路徑末尾的「/bin/javac」，剩下的就是正確的路徑了。如輸出路徑爲 /usr/lib/jvm/java-7-openjdk-amd64/bin/javac，則咱們須要的路徑爲 /usr/lib/jvm/java-7-openjdk-amd64。

接着配置 JAVA_HOME 環境變量，爲方便，咱們在 ~/.bashrc 中進行設置（擴展閱讀: 設置Linux環境變量的方法和區別）：

vim ~/.bashrc

在文件最前面添加以下單獨一行（注意 = 號先後不能有空格），將「JDK安裝路徑」改成上述命令獲得的路徑，並保存：

export JAVA_HOME=JDK安裝路徑

以下圖所示（該文件本來可能不存在，內容爲空，這不影響）：

配置JAVA_HOME變量

接着還須要讓該環境變量生效，執行以下代碼：

source ~/.bashrc # 使變量設置生效

設置好後咱們來檢驗一下是否設置正確：

echo $JAVA_HOME # 檢驗變量值
java -version
$JAVA_HOME/bin/java -version # 與直接執行 java -version 同樣

若是設置正確的話，$JAVA_HOME/bin/java -version 會輸出 java 的版本信息，且和 java -version 的輸出結果同樣，以下圖所示：

成功配置JAVA_HOME變量

這樣，Hadoop 所需的 Java 運行環境就安裝好了。

安裝 Hadoop 2

Hadoop 2 能夠經過 http://mirror.bit.edu.cn/apache/hadoop/common/ 或者 http://mirrors.cnnic.cn/apache/hadoop/common/ 下載，通常選擇下載最新的穩定版本，即下載「stable」下的 hadoop-2.x.y.tar.gz 這個格式的文件，這是編譯好的，另外一個包含 src 的則是 Hadoop 源代碼，須要進行編譯纔可以使用。

下載時強烈建議也下載 hadoop-2.x.y.tar.gz.mds 這個文件，該文件包含了檢驗值可用於檢查 hadoop-2.x.y.tar.gz 的完整性，不然若文件發生了損壞或下載不完整，Hadoop 將沒法正常運行。

本文涉及的文件均經過瀏覽器下載，默認保存在「下載」目錄中（若不是請自行更改 tar 命令的相應目錄）。另外，本教程選擇的是 2.6.0 版本，若是你用的不是 2.6.0 版本，則將全部命令中出現的 2.6.0 更改成你所使用的版本。

cat ~/下載/hadoop-2.6.0.tar.gz.mds | grep 'MD5' # 列出md5檢驗值
# head -n 6 ~/下載/hadoop-2.7.1.tar.gz.mds # 2.7.1版本格式變了，能夠用這種方式輸出
md5sum ~/下載/hadoop-2.6.0.tar.gz | tr "a-z" "A-Z" # 計算md5值，並轉化爲大寫，方便比較

若文件不完整則這兩個值通常差異很大，能夠簡單對比下前幾個字符跟後幾個字符是否相等便可，以下圖所示，若是兩個值不同，請務必從新下載。

檢驗文件完整性

咱們選擇將 Hadoop 安裝至 /usr/local/ 中：

sudo tar -zxf ~/下載/hadoop-2.6.0.tar.gz -C /usr/local # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 將文件夾名改成hadoop
sudo chown -R hadoop ./hadoop # 修改文件權限

Hadoop 解壓後便可使用。輸入以下命令來檢查 Hadoop 是否可用，成功則會顯示 Hadoop 版本信息：

cd /usr/local/hadoop
./bin/hadoop version

相對路徑與絕對路徑的區別

請務必注意命令中的相對路徑與絕對路徑，本文後續出現的 ./bin/...，./etc/... 等包含 ./ 的路徑，均爲相對路徑，以 /usr/local/hadoop 爲當前目錄。例如在 /usr/local/hadoop 目錄中執行 ./bin/hadoop version 等同於執行 /usr/local/hadoop/bin/hadoop version。能夠將相對路徑改爲絕對路徑來執行，但若是你是在主文件夾 ~ 中執行 ./bin/hadoop version，執行的會是 /home/hadoop/bin/hadoop version，就不是咱們所想要的了。

Hadoop單機配置(非分佈式)

Hadoop 默認模式爲非分佈式模式，無需進行其餘配置便可運行。非分佈式即單 Java 進程，方便進行調試。

如今咱們能夠執行例子來感覺下 Hadoop 的運行。Hadoop 附帶了豐富的例子（運行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 能夠看到全部例子），包括 wordcount、terasort、join、grep 等。

在此咱們選擇運行 grep 例子，咱們將 input 文件夾中的全部文件做爲輸入，篩選當中符合正則表達式 dfs[a-z.]+ 的單詞並統計出現的次數，最後輸出結果到 output 文件夾中。

cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input # 將配置文件做爲輸入文件
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/* # 查看運行結果

執行成功後以下所示，輸出了做業的相關信息，輸出的結果是符合正則的單詞 dfsadmin 出現了1次

Hadoop單機模式運行grep的輸出結果

注意，Hadoop 默認不會覆蓋結果文件，所以再次運行上面實例會提示出錯，須要先將 ./output 刪除。

rm -r ./output

Hadoop僞分佈式配置

Hadoop 能夠在單節點上以僞分佈式的方式運行，Hadoop 進程以分離的 Java 進程來運行，節點既做爲 NameNode 也做爲 DataNode，同時，讀取的是 HDFS 中的文件。

Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/ 中，僞分佈式須要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每一個配置以聲明 property 的 name 和 value 的方式來實現。

修改配置文件 core-site.xml (經過 gedit 編輯會比較方便: gedit ./etc/hadoop/core-site.xml)，將當中的

<configuration>
</configuration>

修改成下面配置：

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

一樣的，修改配置文件 hdfs-site.xml：

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

Hadoop配置文件說明

Hadoop 的運行方式是由配置文件決定的（運行 Hadoop 時會讀取配置文件），所以若是須要從僞分佈式模式切換回非分佈式模式，須要刪除 core-site.xml 中的配置項。

此外，僞分佈式雖然只須要配置 fs.defaultFS 和 dfs.replication 就能夠運行（官方教程如此），不過若沒有配置 hadoop.tmp.dir 參數，則默認使用的臨時目錄爲 /tmp/hadoo-hadoop，而這個目錄在重啓時有可能被系統清理掉，致使必須從新執行 format 才行。因此咱們進行了設置，同時也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，不然在接下來的步驟中可能會出錯。

配置完成後，執行 NameNode 的格式化:

./bin/hdfs namenode -format

成功的話，會看到「successfully formatted」和「Exitting with status 0」的提示，若爲「Exitting with status 1」則是出錯。

執行namenode格式化

若是在這一步時提示 Error: JAVA_HOME is not set and could not be found. 的錯誤，則說明以前設置 JAVA_HOME 環境變量那邊就沒設置好，請按教程先設置好 JAVA_HOME 變量，不然後面的過程都是進行不下去的。

接着開啓 NameNode 和 DataNode 守護進程。

./sbin/start-dfs.sh

若出現以下SSH提示，輸入yes便可。

啓動Hadoop時的SSH提示

啓動時可能會出現以下 WARN 提示：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable。該 WARN 提示能夠忽略，並不會影響正常使用（該 WARN 能夠經過編譯 Hadoop 源碼解決）。

啓動 Hadoop 時提示 Could not resolve hostname

若是啓動 Hadoop 時遇到輸出很是多「ssh: Could not resolve hostname xxx」的異常狀況，以下圖所示：

啓動Hadoop時的異常提示

這個並非 ssh 的問題，可經過設置 Hadoop 環境變量來解決。首先按鍵盤的 ctrl + c 中斷啓動，而後在 ~/.bashrc 中，增長以下兩行內容（設置過程與 JAVA_HOME 變量同樣，其中 HADOOP_HOME 爲 Hadoop 的安裝目錄）：

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

保存後，務必執行 source ~/.bashrc 使變量設置生效，而後再次執行 ./sbin/start-dfs.sh 啓動 Hadoop。

啓動完成後，能夠經過命令 jps 來判斷是否成功啓動，若成功啓動則會列出以下進程: 「NameNode」、」DataNode」和「SecondaryNameNode」（若是 SecondaryNameNode 沒有啓動，請運行 sbin/stop-dfs.sh 關閉進程，而後再次嘗試啓動嘗試）。若是沒有 NameNode 或 DataNode ，那就是配置不成功，請仔細檢查以前步驟，或經過查看啓動日誌排查緣由。

經過jps查看啓動的Hadoop進程

Hadoop沒法正常啓動的解決方法

通常能夠查看啓動日誌來排查緣由，注意幾點：

啓動時會提示形如「DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out」，其中 DBLab-XMU 對應你的機器名，但其實啓動日誌信息是記錄在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.log 中，因此應該查看這個後綴爲 .log 的文件；
每一次的啓動日誌都是追加在日誌文件以後，因此得拉到最後面看，對比下記錄的時間就知道了。
通常出錯的提示在最後面，一般是寫着 Fatal、Error、Warning 或者 Java Exception 的地方。
能夠在網上搜索一下出錯信息，看可否找到一些相關的解決方法。

此外，如果 DataNode 沒有啓動，可嘗試以下的方法（注意這會刪除 HDFS 中原有的全部數據，若是原有的數據很重要請不要這樣作）：

# 針對 DataNode 無法啓動的解決方法
./sbin/stop-dfs.sh # 關閉
rm -r ./tmp # 刪除 tmp 文件，注意這會刪除 HDFS 中原有的全部數據
./bin/hdfs namenode -format # 從新格式化 NameNode
./sbin/start-dfs.sh # 重啓

成功啓動後，能夠訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，還能夠在線查看 HDFS 中的文件。

Hadoop的Web界面

運行Hadoop僞分佈式實例

上面的單機模式，grep 例子讀取的是本地數據，僞分佈式讀取的則是 HDFS 上的數據。要使用 HDFS，首先須要在 HDFS 中建立用戶目錄：

./bin/hdfs dfs -mkdir -p /user/hadoop

接着將 ./etc/hadoop 中的 xml 文件做爲輸入文件複製到分佈式文件系統中，即將 /usr/local/hadoop/etc/hadoop 複製到分佈式文件系統中的 /user/hadoop/input 中。咱們使用的是 hadoop 用戶，而且已建立相應的用戶目錄 /user/hadoop ，所以在命令中就可使用相對路徑如 input，其對應的絕對路徑就是 /user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

複製完成後，能夠經過以下命令查看文件列表：

./bin/hdfs dfs -ls input

僞分佈式運行 MapReduce 做業的方式跟單機模式相同，區別在於僞分佈式讀取的是HDFS中的文件（能夠將單機步驟中建立的本地 input 文件夾，輸出結果 output 文件夾都刪掉來驗證這一點）。

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

查看運行結果的命令（查看的是位於 HDFS 中的輸出結果）：

./bin/hdfs dfs -cat output/*

結果以下，注意到剛纔咱們已經更改了配置文件，因此運行結果不一樣。

Hadoop僞分佈式運行grep結果

咱們也能夠將運行結果取回到本地：

rm -r ./output # 先刪除本地的 output 文件夾（若是存在）
./bin/hdfs dfs -get output ./output # 將 HDFS 上的 output 文件夾拷貝到本機
cat ./output/*

Hadoop 運行程序時，輸出目錄不能存在，不然會提示錯誤「org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists」，所以若要再次執行，須要執行以下命令刪除 output 文件夾:

./bin/hdfs dfs -rm -r output # 刪除 output 文件夾

運行程序時，輸出目錄不能存在

運行 Hadoop 程序時，爲了防止覆蓋結果，程序指定的輸出目錄（如 output）不能存在，不然會提示錯誤，所以運行前須要先刪除輸出目錄。在實際開發應用程序時，可考慮在程序中加上以下代碼，能在每次運行時自動刪除輸出目錄，避免繁瑣的命令行操做：

Configuration conf = new Configuration();
Job job = new Job(conf);
/* 刪除輸出目錄 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);

若要關閉 Hadoop，則運行

./sbin/stop-dfs.sh

注意

下次啓動 hadoop 時，無需進行 NameNode 的初始化，只須要運行 ./sbin/start-dfs.sh 就能夠！

啓動YARN

（僞分佈式不啓動 YARN 也能夠，通常不會影響程序執行）

有的讀者可能會疑惑，怎麼啓動 Hadoop 後，見不到書上所說的 JobTracker 和 TaskTracker，這是由於新版的 Hadoop 使用了新的 MapReduce 框架（MapReduce V2，也稱爲 YARN，Yet Another Resource Negotiator）。

YARN 是從 MapReduce 中分離出來的，負責資源管理與任務調度。YARN 運行於 MapReduce 之上，提供了高可用性、高擴展性，YARN 的更多介紹在此不展開，有興趣的可查閱相關資料。

上述經過 ./sbin/start-dfs.sh 啓動 Hadoop，僅僅是啓動了 MapReduce 環境，咱們能夠啓動 YARN ，讓 YARN 來負責資源管理與任務調度。

首先修改配置文件 mapred-site.xml，這邊須要先進行重命名：

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

而後再進行編輯，一樣使用 gedit 編輯會比較方便些 gedit ./etc/hadoop/mapred-site.xml ：

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

接着修改配置文件 yarn-site.xml：

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

而後就能夠啓動 YARN 了（須要先執行過 ./sbin/start-dfs.sh）：

./sbin/start-yarn.sh # 啓動YARN
./sbin/mr-jobhistory-daemon.sh start historyserver # 開啓歷史服務器，才能在Web中查看任務運行狀況

開啓後經過 jps 查看，能夠看到多了 NodeManager 和 ResourceManager 兩個後臺進程，以下圖所示。

開啓YARN

啓動 YARN 以後，運行實例的方法仍是同樣的，僅僅是資源管理方式、任務調度不一樣。觀察日誌信息能夠發現，不啓用 YARN 時，是「mapred.LocalJobRunner」在跑任務，啓用 YARN 以後，是「mapred.YARNRunner」在跑任務。啓動 YARN 有個好處是能夠經過 Web 界面查看任務的運行狀況：http://localhost:8088/cluster，以下圖所示。

開啓YARN後能夠查看任務運行信息

但 YARN 主要是爲集羣提供更好的資源管理與任務調度，然而這在單機上體現不出價值，反而會使程序跑得稍慢些。所以在單機上是否開啓 YARN 就看實際狀況了。

不啓動 YARN 需重命名 mapred-site.xml

若是不想啓動 YARN，務必把配置文件 mapred-site.xml 重命名，改爲 mapred-site.xml.template，須要用時改回來就行。不然在該配置文件存在，而未開啓 YARN 的狀況下，運行程序會提示「Retrying connect to server: 0.0.0.0/0.0.0.0:8032」的錯誤，這也是爲什麼該配置文件初始文件名爲 mapred-site.xml.template。

一樣的，關閉 YARN 的腳本以下：

./sbin/stop-yarn.sh
./sbin/mr-jobhistory-daemon.sh stop historyserver

自此，你已經掌握 Hadoop 的配置和基本使用了。

附加教程: 配置PATH環境變量

在這裏額外講一下 PATH 這個環境變量（可執行 echo $PATH 查看，當中包含了多個目錄）。例如咱們在主文件夾 ~ 中執行 ls 這個命令時，實際執行的是 /bin/ls 這個程序，而不是 ~/ls 這個程序。系統是根據 PATH 這個環境變量中包含的目錄位置，逐一進行查找，直至在這些目錄位置下找到匹配的程序（若沒有匹配的則提示該命令不存在）。

上面的教程中，咱們都是先進入到 /usr/local/hadoop 目錄中，再執行 sbin/hadoop，實際上等同於運行 /usr/local/hadoop/sbin/hadoop。咱們能夠將 Hadoop 命令的相關目錄加入到 PATH 環境變量中，這樣就能夠直接經過 start-dfs.sh 開啓 Hadoop，也能夠直接經過 hdfs 訪問 HDFS 的內容，方便平時的操做。

一樣咱們選擇在 ~/.bashrc 中進行設置（vim ~/.bashrc，與 JAVA_HOME 的設置類似），在文件最前面加入以下單獨一行:

export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

添加後執行 source ~/.bashrc 使設置生效，生效後，在任意目錄中，均可以直接使用 hdfs 等命令了，讀者不妨如今就執行 hdfs dfs -ls input 查看 HDFS 文件試試看。

安裝Hadoop集羣

在平時的學習中，咱們使用僞分佈式就足夠了。若是須要安裝 Hadoop 集羣，請查看Hadoop集羣安裝配置教程。

參考資料

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Hadoop安裝教程_單機/僞分佈式配置_Hadoop2.6.0/Ubuntu14.04（轉）

環境

建立hadoop用戶

更新apt

安裝SSH、配置SSH無密碼登錄

安裝Java環境

安裝 Hadoop 2

Hadoop單機配置(非分佈式)

Hadoop僞分佈式配置

運行Hadoop僞分佈式實例

啓動YARN

附加教程: 配置PATH環境變量

安裝Hadoop集羣

相關教程

參考資料