開始寫本身的blog記錄本身的學習歷程。java
安裝經歷,很久不用linux命令不會了…這個現查手冊,查了不少blog,百度半天發現都是copy 來 copy 去。真的是浪費時間,如今本身安裝成功嘍,特別的發表出來,給你們分享一下。原本只想簡單的寫一寫,但是發現越寫越多…算是本身的我的總結吧,若是能帶給你幫助,或你有所收穫那麼我將很高興,哈!~(本人剛開始學習Hadoop,歡迎前輩指點,我會將存在問題的地方及時更正!)node
1. 建議去Apache下載hadoop.0.20.2linux
2. java jdk1.6版本(Linux版本的)shell
3. Linux(本身用的centos5.5)centos
4. 最好有一個好的遠程鏈接工具:secureCRT很喜歡用。方便操做。api
首先安裝好你的linux環境。這裏很少講了bash
然後呢安裝linux下JDK。簡單說說嘍服務器
我下載了一個架構
在linux右鍵用命令行打開就能夠安裝…不要鄙視我,下載錯了,太晚了眼花了。若是你是tar.gz結尾的請使用tar命令ssh
tar -zxvf 你的jdk名稱.tar.gz -C /opt
tar -zxvf hadoop-0.20.2.tar.gz -C /opt
我將本身的jdk和hadoop都安裝在opt目錄下,練習環境也沒有講究太多…
這個東東安裝好了,僅僅是剛剛開始,好多地方還不知有hadoop和jdk也就是你hadoop命令和java or javac命令在linux想要執行還有點小麻煩。。。
-bash command not found好像是這個提示
配置環境變量其實很簡單啦,但是…本身查了半天,豬同樣的習性,野猴子的心
用vi /etc/profile命令編譯profile文件,記住編輯完後,用cat /etc/profile查看是否保存成功,成功就重啓你的linux,而後登錄直接輸入hadoop和java or javac驗證環境變量是否安裝成功。
在profile文件最下端加入以下命令:!!!!必須嚴格區分大小寫,標點符號英文下的.
看看這三行英文註釋,你會記住這個文件的做用,學java看api習慣看註釋了。
重啓linux後測試…
出現下面畫面說明成功了,紅括號只是說明,今天會常常用的命令吧,親我也是剛開始學習,歡迎批評指正。
jdk環境變量設置成功畫面
好的基礎的東西都弄好了,下面咱們要配置Hadoop,linux下面都是配置文件啦…
bin目錄下一些重要的shell
啓動全部節點和關閉全部節點
start-all.sh
stop-all.sh
下面就到了咱們要配置的文件了
下面分別進行配置嘍,我已經配置好了,以下圖:
Hadoop的組件應用xml文件對其進行的配置
core-site.xml 用於配置common組件的屬性
hdfs-site.xml 用於配置HDFS的屬性
mapred-site.xml 用於配置mapreduce屬性
不一樣模式的關鍵匹配屬性
組件名稱 |
屬性名稱 |
獨立模式 |
僞分佈模式 |
全分佈模式 |
Common |
fs.default.name |
file:///默認 |
hdfs://localhost/ |
hdfs://namenode/ |
HDFS |
dfs.replication |
N/A |
1 |
3默認 |
MapReduce |
map.job.tracker |
local默認 |
localhost:8021 |
jobtracker:8021 |
docs中還放置了3個組件的默認配置(有興趣的同窗能夠看看,還有不少PDF格式的文檔)
查看我已經配置好的xml文件,
你須要先進去conf目錄
cd /opt/hadoop-0.20.2/conf
看到三個上面xml文件,按以下圖片修改
例如:
vi mapred-site.xml
下面我經過cat mapred-site.xml查看配置成功
mapred-site.xml
hdfs-site.xml
core-site.xml
好了三個文件配置完了…等等,還有一個須要配置的。
若是上面任務你都順利完成了那麼恭喜你!
$ sudo su –
直接複製下面兩行命令執行(不要帶前面的井號)。
爲了設置不須要密碼的ssh
# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
首先 格式化namenode
hadoop-0.20.2 namenode –format
Hadoop 提供一些簡化啓動的輔助工具。這些工具分爲啓動(好比 start-dfs)和中止(好比 stop-dfs)兩類。下面的簡單腳本說明如何啓動 Hadoop 節點:
啓動全部服務
/opt/hadoop-0.20.2/bin/start-all.sh
關閉全部服務
/opt/hadoop-0.20.2/bin/stop-all.sh
要想檢查守護進程是否正在運行,可使用 jps 命令(這是用於 JVM 進程的 ps 實用程序)。這個命令列出 5 個守護進程及其進程標識符。
文件系統進行格式化並返回一些信息,啓動 Hadoop 守護進程。
Hadoop 在這個僞分佈式配置中啓動 5 個守護進程:
namenode:hadoop主服務器,它管理文件系統名稱空間和對集羣中存儲文件的訪問
secondarynamenode:不是文件冗餘守護進程,而是提供週期檢查點和清理任務
datanode:管理到鏈接節點的存儲(一個集羣中能夠有多個節點)
jobtracker :每一個集羣中有一個jobtracker,它負責調度datanode上的工做,每一個datanode上有一個tasktracker,它們執行實際的工做,jobtracker和tasktracker採起主從形式,jobtracker跨datanode分發工做,而tasktracker執行工做,jobtracker還檢查工做,若是一個datanode因爲某些緣由失敗,jobtracker會從新調度之前的工做。
tasktracker:
在啓動每一個守護進程時,會看到一些相關信息(指出存儲日誌的位置)。每一個守護進程都在後臺運行。說明完成啓動以後僞分佈式配置的架構。
測試一下嘍
hadoop fs –ls /