Ubuntu配置hadoop僞分佈式

時間 2019-12-06

標籤 ubuntu 配置 hadoop 分佈式欄目 Ubuntu 简体版

原文原文鏈接

　　1. 設置免密登陸node

　　僞分佈式搭建過程當中會涉及各類管理員權限，一次一次輸入密碼太過麻煩，咱們要求各集羣間免密碼鏈接linux

　　此時再用 ssh localhost 命令，無需輸入密碼就能夠直接登錄了，以下圖所示。瀏覽器

　　2. 安裝Java環境bash

　　見前文ssh

　　3. 安裝 Hadoop分佈式

　　安裝配置見前文oop

　　4. 僞分佈式配置3d

　　Hadoop 能夠在單節點上以僞分佈式的方式運行，Hadoop 進程以分離的 Java 進程來運行，節點既做爲 NameNode 也做爲 DataNode，同時，讀取的是 HDFS 中的文件。日誌

　　Hadoop 的配置文件位於 /usr/local/hadoop/etc/hadoop/中，僞分佈式須要修改2個配置文件 core-site.xml和 hdfs-site.xml。Hadoop的配置文件是 xml 格式，每一個配置以聲明 property 的 name 和 value 的方式來實現。orm

　　I. 修改core-site.xml

　　主要設置tmp的路徑和站點，個人hadoop安裝路徑是/usr/local/hadoop,你們根據我的狀況配置

　　II. 修改hdfs-site.xml

　　reliication指定副本數，默認3個，僞分佈式雖然只須要配置fs.defaultFS和 dfs.replication就能夠運行(官方教程如此)，不過若沒有配置 hadoop.tmp.dir 參數，則默認使用的臨時目錄爲 /tmp/hadoo-hadoop，而這個目錄在重啓時有可能被系統清理掉，致使必須從新執行 format 才行。因此咱們進行了設置，同時也指定 dfs.namenode.name.dir和 dfs.datanode.data.dir，不然在接下來的步驟中可能會出錯。

　　5. NameNode 的格式化:

　　建議你們能夠把hadoop環境變量配置在~/.bashrc中，之後執行命令式不用每次到bin下或者使用絕對路徑

　　格式化以後系統會讀取配置文件，在指定路徑下生成對應文件，具體變化能夠前往日誌文件中查看。

　　./bin/hdfs namenode -format

　　若是運行結果中出現/dfs/name has been successfully formatted等字眼或者Exiting with status 0表示成功，linux當中0表示True，不然多是配置有問題，須要從新編寫並格式化(不推薦直接從新格式化，實在須要操做的話儘可能先刪除以前的數據)

　　6. 開啓 NameNode 和 DataNode 守護進程。

　　能夠經過start-dfs.sh直接執行，也能夠經過 sbin/hadoop-daemon.sh start name執行

　　./sbin/start-dfs.sh #start-dfs.sh是個完整的可執行文件，中間沒有空格

　　7. 啓動狀況查看：jps

　　若是發現DataNode未能啓動，能夠嘗試重啓進程或者sbin/hadoop-daemon.sh start datanode手動打開,若是兩者過程當中皆有異常拋出，建議刪除文件從新配置

　　8. 瀏覽器查看信息

　　成功啓動後，能夠訪問 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，還能夠在線查看 HDFS 中的文件。

　　9. YARN

　　YARN 是從 MapReduce 中分離出來的，負責資源管理與任務調度。YARN 運行於 MapReduce 之上，提供了高可用性、高擴展性，

　　上述經過 ./sbin/start-dfs.sh 啓動 Hadoop，僅僅是啓動了 MapReduce 環境，咱們能夠啓動 YARN ，讓 YARN 來負責資源管理與任務調度。

　　(僞分佈式不啓動 YARN 也能夠，通常不會影響程序執行)I. 修改mapred-site.xml

　　首先修改配置文件 mapred-site.xml，這邊須要先進行重命名(在hadoop根目錄下)

　　II. 配置yarn-site.xml

　　III. 啓動yarn

　　IV. 關閉yarn

　　10. 利用yarn查看任務運行

　　啓動 YARN 以後，運行實例的方法仍是同樣的，僅僅是資源管理方式、任務調度不一樣。觀察日誌信息能夠發現，不啓用 YARN 時，是「mapred.LocalJobRunner」在跑任務，啓用 YARN 以後，是「mapred.YARNRunner」在跑任務。啓動 YARN 有個好處是能夠經過 Web 界面查看任務的運行狀況：