1. 設置免密登陸node
僞分佈式搭建過程當中會涉及各類管理員權限,一次一次輸入密碼太過麻煩,咱們要求各集羣間免密碼鏈接linux
此時再用 ssh localhost 命令,無需輸入密碼就能夠直接登錄了,以下圖所示。瀏覽器
2. 安裝Java環境bash
見前文ssh
3. 安裝 Hadoop分佈式
安裝配置見前文oop
4. 僞分佈式配置3d
Hadoop 能夠在單節點上以僞分佈式的方式運行,Hadoop 進程以分離的 Java 進程來運行,節點既做爲 NameNode 也做爲 DataNode,同時,讀取的是 HDFS 中的文件。日誌
Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/中,僞分佈式須要修改2個配置文件 core-site.xml和 hdfs-site.xml。Hadoop的配置文件是 xml 格式,每一個配置以聲明 property 的 name 和 value 的方式來實現。orm
I. 修改core-site.xml
主要設置tmp的路徑和站點,個人hadoop安裝路徑是/usr/local/hadoop,你們根據我的狀況配置
II. 修改hdfs-site.xml
reliication指定副本數,默認3個,僞分佈式雖然只須要配置fs.defaultFS和 dfs.replication就能夠運行(官方教程如此),不過若沒有配置 hadoop.tmp.dir 參數,則默認使用的臨時目錄爲 /tmp/hadoo-hadoop,而這個目錄在重啓時有可能被系統清理掉,致使必須從新執行 format 才行。因此咱們進行了設置,同時也指定 dfs.namenode.name.dir和 dfs.datanode.data.dir,不然在接下來的步驟中可能會出錯。
5. NameNode 的格式化:
建議你們能夠把hadoop環境變量配置在~/.bashrc中,之後執行命令式不用每次到bin下或者使用絕對路徑
格式化以後系統會讀取配置文件,在指定路徑下生成對應文件,具體變化能夠前往日誌文件中查看。
./bin/hdfs namenode -format
若是運行結果中出現/dfs/name has been successfully formatted等字眼或者Exiting with status 0表示成功,linux當中0表示True,不然多是配置有問題,須要從新編寫並格式化(不推薦直接從新格式化,實在須要操做的話儘可能先刪除以前的數據)
6. 開啓 NameNode 和 DataNode 守護進程。
能夠經過start-dfs.sh直接執行,也能夠經過 sbin/hadoop-daemon.sh start name執行
./sbin/start-dfs.sh #start-dfs.sh是個完整的可執行文件,中間沒有空格
7. 啓動狀況查看 :jps
若是發現DataNode未能啓動,能夠嘗試重啓進程或者sbin/hadoop-daemon.sh start datanode手動打開,若是兩者過程當中皆有異常拋出,建議刪除文件從新配置
8. 瀏覽器查看信息
成功啓動後,能夠訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,還能夠在線查看 HDFS 中的文件。
9. YARN
YARN 是從 MapReduce 中分離出來的,負責資源管理與任務調度。YARN 運行於 MapReduce 之上,提供了高可用性、高擴展性,
上述經過 ./sbin/start-dfs.sh 啓動 Hadoop,僅僅是啓動了 MapReduce 環境,咱們能夠啓動 YARN ,讓 YARN 來負責資源管理與任務調度。
(僞分佈式不啓動 YARN 也能夠,通常不會影響程序執行)I. 修改mapred-site.xml
首先修改配置文件 mapred-site.xml,這邊須要先進行重命名(在hadoop根目錄下)
II. 配置yarn-site.xml
III. 啓動yarn
IV. 關閉yarn
10. 利用yarn查看任務運行
啓動 YARN 以後,運行實例的方法仍是同樣的,僅僅是資源管理方式、任務調度不一樣。觀察日誌信息能夠發現,不啓用 YARN 時,是 「mapred.LocalJobRunner」在跑任務,啓用 YARN 以後,是 「mapred.YARNRunner」在跑任務。啓動 YARN 有個好處是能夠經過 Web 界面查看任務的運行狀況: