Hadoop僞分佈式安裝

時間 2019-11-07

原文原文鏈接

開始寫本身的blog記錄本身的學習歷程。java

構建Linux下Hadoop環境

安裝經歷，很久不用linux命令不會了…這個現查手冊，查了不少blog，百度半天發現都是copy 來 copy 去。真的是浪費時間，如今本身安裝成功嘍，特別的發表出來，給你們分享一下。原本只想簡單的寫一寫，但是發現越寫越多…算是本身的我的總結吧，若是能帶給你幫助，或你有所收穫那麼我將很高興，哈！~（本人剛開始學習Hadoop，歡迎前輩指點，我會將存在問題的地方及時更正！）node

安裝前的準備工做

1. 建議去Apache下載hadoop.0.20.2linux

2. java jdk1.6版本（Linux版本的）shell

3. Linux（本身用的centos5.5）centos

4. 最好有一個好的遠程鏈接工具：secureCRT很喜歡用。方便操做。api

如今咱們能夠開始安裝了前3項必須有，第四個工具推薦使用。

首先安裝好你的linux環境。這裏很少講了bash

然後呢安裝linux下JDK。簡單說說嘍服務器

我下載了一個架構

在linux右鍵用命令行打開就能夠安裝…不要鄙視我，下載錯了，太晚了眼花了。若是你是tar.gz結尾的請使用tar命令ssh

tar -zxvf 你的jdk名稱.tar.gz -C /opt

安裝hadoop

tar -zxvf hadoop-0.20.2.tar.gz -C /opt

我將本身的jdk和hadoop都安裝在opt目錄下，練習環境也沒有講究太多…

這個東東安裝好了，僅僅是剛剛開始，好多地方還不知有hadoop和jdk也就是你hadoop命令和java or javac命令在linux想要執行還有點小麻煩。。。

-bash command not found好像是這個提示

那麼你就須要配置你的環境變量了

配置環境變量其實很簡單啦，但是…本身查了半天，豬同樣的習性，野猴子的心

用vi /etc/profile命令編譯profile文件，記住編輯完後，用cat /etc/profile查看是否保存成功，成功就重啓你的linux，而後登錄直接輸入hadoop和java or javac驗證環境變量是否安裝成功。

在profile文件最下端加入以下命令：！！！！必須嚴格區分大小寫，標點符號英文下的.

看看這三行英文註釋，你會記住這個文件的做用，學java看api習慣看註釋了。

重啓linux後測試…

出現下面畫面說明成功了，紅括號只是說明，今天會常常用的命令吧，親我也是剛開始學習，歡迎批評指正。

jdk環境變量設置成功畫面

好的基礎的東西都弄好了，下面咱們要配置Hadoop，linux下面都是配置文件啦…

仍是先看看hadoop目錄結構吧…

bin目錄下一些重要的shell

啓動全部節點和關閉全部節點

start-all.sh

stop-all.sh

下面就到了咱們要配置的文件了

Hadoop配置文件

下面分別進行配置嘍，我已經配置好了，以下圖：

Hadoop的組件應用xml文件對其進行的配置

core-site.xml 用於配置common組件的屬性

hdfs-site.xml 用於配置HDFS的屬性

mapred-site.xml 用於配置mapreduce屬性

不一樣模式的關鍵匹配屬性

組件名稱	屬性名稱	獨立模式	僞分佈模式	全分佈模式
Common	fs.default.name	file:///默認	hdfs://localhost/	hdfs://namenode/
HDFS	dfs.replication	N/A	1	3默認
MapReduce	map.job.tracker	local默認	localhost:8021	jobtracker:8021

docs中還放置了3個組件的默認配置（有興趣的同窗能夠看看，還有不少PDF格式的文檔）

查看我已經配置好的xml文件，

你須要先進去conf目錄

cd /opt/hadoop-0.20.2/conf

看到三個上面xml文件，按以下圖片修改

例如：

vi mapred-site.xml

下面我經過cat mapred-site.xml查看配置成功

mapred-site.xml

hdfs-site.xml

core-site.xml

好了三個文件配置完了…等等，還有一個須要配置的。

若是上面任務你都順利完成了那麼恭喜你！

設置無需密碼的ssh

$ sudo su –

直接複製下面兩行命令執行（不要帶前面的井號）。

爲了設置不須要密碼的ssh

# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

啓動Hadoop

首先格式化namenode

hadoop-0.20.2 namenode –format

Hadoop 提供一些簡化啓動的輔助工具。這些工具分爲啓動（好比 start-dfs）和中止（好比 stop-dfs）兩類。下面的簡單腳本說明如何啓動 Hadoop 節點：

啓動全部服務

/opt/hadoop-0.20.2/bin/start-all.sh

關閉全部服務

/opt/hadoop-0.20.2/bin/stop-all.sh

要想檢查守護進程是否正在運行，可使用 jps 命令（這是用於 JVM 進程的 ps 實用程序）。這個命令列出 5 個守護進程及其進程標識符。

文件系統進行格式化並返回一些信息，啓動 Hadoop 守護進程。

Hadoop 在這個僞分佈式配置中啓動 5 個守護進程：

namenode：hadoop主服務器，它管理文件系統名稱空間和對集羣中存儲文件的訪問

secondarynamenode：不是文件冗餘守護進程，而是提供週期檢查點和清理任務

datanode：管理到鏈接節點的存儲（一個集羣中能夠有多個節點）

jobtracker ：每一個集羣中有一個jobtracker，它負責調度datanode上的工做，每一個datanode上有一個tasktracker，它們執行實際的工做，jobtracker和tasktracker採起主從形式，jobtracker跨datanode分發工做，而tasktracker執行工做，jobtracker還檢查工做，若是一個datanode因爲某些緣由失敗，jobtracker會從新調度之前的工做。

tasktracker：

在啓動每一個守護進程時，會看到一些相關信息（指出存儲日誌的位置）。每一個守護進程都在後臺運行。說明完成啓動以後僞分佈式配置的架構。