Hadoop 能夠在單節點上以僞分佈式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既做爲 NameNode 也做爲 DataNode,同時,讀取的是 HDFS 中的文件。java
在設置 Hadoop 僞分佈式配置前,咱們還須要設置 HADOOP 環境變量,執行以下命令在 ~/.bashrc 中設置:node
vi ~/.bashrc
此次咱們選擇用 gedit 而不是 vim 來編輯。gedit 是文本編輯器,相似於 Windows 中的記事本,會比較方便。保存後記得關掉整個 gedit 程序,不然會佔用終端。在文件最後面增長以下內容:apache
# Hadoop Environment Variables export JAVA_HOME=/usr/local/java export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$JAVA_HOME/bin
保存後,不要忘記執行以下命令使配置生效:vim
source ~/.bashrc
這些變量在啓動 Hadoop 進程時須要用到,不設置的話可能會報錯(這些變量也能夠經過修改 ./etc/hadoop/hadoop-env.sh 實現)。bash
Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/
中,僞分佈式須要修改2個配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每一個配置以聲明 property 的 name 和 value 的方式來實現。服務器
修改配置文件 core-site.xml (經過 gedit 編輯會比較方便: vi ./etc/hadoop/core-site.xml
),將當中的框架
<configuration> </configuration>
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
一樣的,修改配置文件 hdfs-site.xml:編輯器
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
配置完成後,執行 NameNode 的格式化:分佈式
./bin/hdfs namenode -format
成功的話,會看到 「successfully formatted」 和 「Exitting with status 0」 的提示,oop
若爲 「Exitting with status 1」 則是出錯。
接着開啓 NaneNode
和 DataNode
守護進程:
./sbin/start-dfs.sh
若出現以下 SSH 的提示 「Are you sure you want to continue connecting」,輸入 yes 便可。
首次啓動Hadoop時的SSH提示
啓動時可能會有 WARN 提示 「WARN util.NativeCodeLoader…」 如前面提到的,這個提示不會影響正常使用。
若出現JAVA_HOME 環境變量問題。配置以下:
進入$HADOOP_HOME/etc/hadoop目錄,配置 hadoop-env.sh,yarn-env.sh等。
涉及的配置文件以下:
1)配置hadoop-env.sh
# The java implementation to use. #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/lib/jdk1.6.0_45
2)配置yarn-env.sh
#export JAVA_HOME=/home/y/libexec/jdk1.6.0/ export JAVA_HOME=/usr/lib/jdk1.6.0_45
啓動完成後,能夠經過命令 jps
來判斷是否成功啓動,若成功啓動則會列出以下進程: 「NameNode」、」DataNode」和SecondaryNameNode
(若是 SecondaryNameNode 沒有啓動,請運行 sbin/stop-dfs.sh 關閉進程,而後再次嘗試啓動嘗試)。若是沒有 NameNode 或 DataNode ,那就是配置不成功,請仔細檢查以前步驟,或經過查看啓動日誌排查緣由。
經過查看啓動日誌分析啓動失敗緣由
有時 Hadoop 沒法正確啓動,如 NameNode 進程沒有順利啓動,這時能夠查看啓動日誌來排查緣由,注意幾點:
成功啓動後,能夠訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,
還能夠在線查看 HDFS 中的文件。
上面的單機模式,grep 例子讀取的是本地數據,僞分佈式讀取的則是 HDFS 上的數據。要使用 HDFS,首先須要在 HDFS 中建立用戶目錄:
./bin/hdfs dfs -mkdir -p /user/hadoop
接着將 ./etc/hadoop 中的 xml 文件做爲輸入文件複製到分佈式文件系統中,即將 /usr/local/hadoop/etc/hadoop 複製到分佈式文件系統中的 /user/hadoop/input 中。咱們使用的是 hadoop 用戶,而且已建立相應的用戶目錄 /user/hadoop ,所以在命令中就可使用相對路徑如 input,其對應的絕對路徑就是 /user/hadoop/input:
./bin/hdfs dfs -mkdir input ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
複製完成後,能夠經過以下命令查看 HDFS 中的文件列表:
./bin/hdfs dfs -ls input
僞分佈式運行 MapReduce 做業的方式跟單機模式相同,區別在於僞分佈式讀取的是HDFS中的文件(能夠將單機步驟中建立的本地 input 文件夾,輸出結果 output 文件夾都刪掉來驗證這一點)。
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
查看運行結果的命令(查看的是位於 HDFS 中的輸出結果):
./bin/hdfs dfs -cat output/*
結果以下,注意到剛纔咱們已經更改了配置文件,因此運行結果不一樣。
咱們也能夠將運行結果取回到本地:
rm -r ./output # 先刪除本地的 output 文件夾(若是存在) ./bin/hdfs dfs -get output ./output # 將 HDFS 上的 output 文件夾拷貝到本機 cat ./output/*
Hadoop 運行程序時,輸出目錄不能存在,不然會提示錯誤 「org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists」 ,所以若要再次執行,須要執行以下命令刪除 output 文件夾:
./bin/hdfs dfs -rm -r output # 刪除 output 文件夾
運行程序時,輸出目錄不能存在
運行 Hadoop 程序時,爲了防止覆蓋結果,程序指定的輸出目錄(如 output)不能存在,不然會提示錯誤,所以運行前須要先刪除輸出目錄。在實際開發應用程序時,可考慮在程序中加上以下代碼,能在每次運行時自動刪除輸出目錄,避免繁瑣的命令行操做:
Configuration conf = new Configuration(); Job job = new Job(conf); /* 刪除輸出目錄 */ Path outputPath = new Path(args[1]); outputPath.getFileSystem(conf).delete(outputPath, true);
Java
若要關閉 Hadoop,則運行
./sbin/stop-dfs.sh
注意下次啓動 hadoop 時,無需進行 NameNode 的初始化,只須要運行 ./sbin/start-dfs.sh
就能夠!
(僞分佈式不啓動 YARN 也能夠,通常不會影響程序執行)
有的讀者可能會疑惑,怎麼啓動 Hadoop 後,見不到書上所說的 JobTracker 和 TaskTracker,這是由於新版的 Hadoop 使用了新的 MapReduce 框架(MapReduce V2,也稱爲 YARN,Yet Another Resource Negotiator)。
YARN 是從 MapReduce 中分離出來的,負責資源管理與任務調度。YARN 運行於 MapReduce 之上,提供了高可用性、高擴展性,YARN 的更多介紹在此不展開,有興趣的可查閱相關資料。
上述經過 ./sbin/start-dfs.sh
啓動 Hadoop,僅僅是啓動了 MapReduce 環境,咱們能夠啓動 YARN ,讓 YARN 來負責資源管理與任務調度。
首先修改配置文件 mapred-site.xml,這邊須要先進行重命名:
mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
而後再進行編輯,一樣使用 gedit 編輯會比較方便些 gedit ./etc/hadoop/mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
接着修改配置文件 yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
而後就能夠啓動 YARN 了(須要先執行過 ./sbin/start-dfs.sh
):
./sbin/start-yarn.sh $ 啓動YARN ./sbin/mr-jobhistory-daemon.sh start historyserver # 開啓歷史服務器,才能在Web中查看任務運行狀況
開啓後經過 jps
查看,能夠看到多了 NodeManager 和 ResourceManager 兩個後臺進程,以下圖所示。
啓動 YARN 以後,運行實例的方法仍是同樣的,僅僅是資源管理方式、任務調度不一樣。觀察日誌信息能夠發現,不啓用 YARN 時,是 「mapred.LocalJobRunner」 在跑任務,啓用 YARN 以後,是 「mapred.YARNRunner」 在跑任務。
啓動 YARN 有個好處是能夠經過 Web 界面查看任務的運行狀況:http://localhost:8088/cluster,以下圖所示。
但 YARN 主要是爲集羣提供更好的資源管理與任務調度,然而這在單機上體現不出價值,反而會使程序跑得稍慢些。所以在單機上是否開啓 YARN 就看實際狀況了。
不啓動 YARN 需重命名 mapred-site.xml
若是不想啓動 YARN,務必把配置文件 mapred-site.xml 重命名,改爲 mapred-site.xml.template,須要用時改回來就行。不然在該配置文件存在,而未開啓 YARN 的狀況下,運行程序會提示 「Retrying connect to server: 0.0.0.0/0.0.0.0:8032」 的錯誤,這也是爲什麼該配置文件初始文件名爲 mapred-site.xml.template。
一樣的,關閉 YARN 的腳本以下:
./sbin/stop-yarn.sh ./sbin/mr-jobhistory-daemon.sh stop historyserver
自此,你已經掌握 Hadoop 的配置和基本使用了。
在這裏額外講一下 PATH 這個環境變量(可執行 echo $PATH
查看,當中包含了多個目錄)。例如咱們在主文件夾 ~ 中執行 ls
這個命令時,實際執行的是 /bin/ls
這個程序,而不是 ~/ls
這個程序。系統是根據 PATH 這個環境變量中包含的目錄位置,逐一進行查找,直至在這些目錄位置下找到匹配的程序(若沒有匹配的則提示該命令不存在)。
上面的教程中,咱們都是先進入到 /usr/local/hadoop 目錄中,再執行 ./sbin/hadoop
,實際上等同於運行 /usr/local/hadoop/sbin/hadoop
。咱們能夠將 Hadoop 命令的相關目錄加入到 PATH 環境變量中,這樣就能夠直接經過 start-dfs.sh
開啓 Hadoop,也能夠直接經過 hdfs
訪問 HDFS 的內容,方便平時的操做。
在前面咱們設置 HADOOP 環境變量時,咱們已經順便設置了 PATH 變量(即 「export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin」),那麼之後咱們在任意目錄中均可以直接經過執行 start-dfs.sh
來啓動 Hadoop 或者執行 hdfs dfs -ls input
查看 HDFS 文件了,讀者不妨如今就執行 hdfs dfs -ls input
試試看。