1.linux系統選擇
deban 和 redhat 都差很少配置 個人是fedora ,可是推薦你們用centos (本身學習下sudo配置和基礎命令,文檔須要的郵件發送: linux經常使用命令.pdf) java
2.java環境
java環境比較重要,比較高版本的jdk hadoop支持不是很好,建議選擇相對穩定的1.6.34 (jdk-6u34-linux-x64.bin 須要的郵件發送或本身下載 )
環境配置很簡單tar後配置一下環境變量javahome jrehome classpath path 不會的話只能去百度google了 這裏不是重點。
記得給文件夾提權,(命令: chmod 664 jdk路徑/jdk-6u34-linux-x64/ ) 後面參數是jdk解壓路徑
3.Hadoop
我用的是hadoop1.0.3
tar -xzvf hadoop-1.0.3-bin.tar.gz 解壓出來
配置環境變量sudo vim /etc/environment而後是配置Hadoop的環境變量,跟以前JAVA環境變量相似。
sudo vim /etc/environment
PATH中添加":/解壓路徑/hadoop/hadoop-1.0.3/bin"。(注意是path中追加 不是修改!!!) node
而後要配置ssh無密碼登陸localhost,在這以前須要確認ssh和rsync已經安裝
僞分佈式
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa # 生成祕鑰
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys #把祕鑰追加到 authorized_keys中 若是是集羣 就要將全部集羣中的主機祕鑰都加入authorized_keys linux
ssh localhost #無密碼登陸 vim
重點學習下公鑰私鑰是什麼!!! ssh靠這個認證主機用的
(無密碼登錄 上次培訓時提到能夠不用配置 可是每次ssh都要輸入密碼 介意先配置了 若是不明白百度google一下) centos
接下來是Hadoop的配置
首先是JAVA路徑,修改hadoop-1.0.3/conf/hadoop-env.sh文件中的JAVA_HOME=/usr/lib/jvm/jdk1.6.0_34爲本身的jdk路徑 瀏覽器
而後是修改conf下面的幾個xml文件
1- vim core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/本地hadoop路徑/hadoop-1.0.3/datatmp/hadoop-${user.name}</value>
</property>
</configuration>
2- vim hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3- vim mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
至此一個僞分佈式的Hadoop就配置好了 能夠運行一下測試腳本
查看版本 hadoop version ssh
格式化一個namenode(以後不要輕易格式化,不然namenode的ID變化會比較麻煩)
hadoop namenode -format
而後啓動各項服務。
start-all.sh(服務所有開啓 :慎用)
最後中止服務 命令:
stop-all.sh(服務所有中止 :慎用) jvm
這樣就能夠在瀏覽器中查看相應信息啦。
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
等datanode啓動好,就能夠把文件複製到分佈式系統
上傳文件命令:hadoop fs -put conf input 分佈式
查看測試結果 命令:
hadoop fs -cat output/* oop
有感興趣的同事能夠一塊兒學習hadoop hive hbase+zookepper sqoop mapreduce mahout