ubuntu 安裝hadoop 僞分佈模式

時間 2019-12-04

原文原文鏈接

1/首先在官網下載hadoop文件，hadoop-0.23.6.tar.gz

2/系統下要安裝jdk java

個人系統jdk安裝在：JAVA_HOME=/usr/lib/jvm/java-6-oracle node

3/解壓hadoop-0.23.6.tar.gz文件： linux

tar -xvzf hadoop-0.23.6.tar.gz

給文件設置全部者 shell

#chown -R tianbx:tianbx title.txt

4/編輯 conf/hadoop-env.sh文件，至少須要將JAVA_HOME設置爲Java安裝根路徑。 apache

5/建立一個紙箱hadoop的安裝目錄的環境變量，將二進制目錄放到命令行路徑上。 ubuntu

export HADOOP_INSTALL=/home/hadoop/
export PATH=$PATH:$HADOOP_INSTALL/bin

這樣就能夠不用加hadoop路徑了，直接使用hadoop命令：

hadoop versionHadoop 0.20.2
Subversion https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707
Compiled by chrisdo on Fri Feb 19 08:07:34 UTC 2010
root@tianbaoxing-virtual-machine:/home/hadoop/java#

6/hadoop中的每個組件都是用一個xml文件配置。核心屬性在core-site.xml中，HDFS屬性在hdfs-site.xml中，MapReduce屬性在mapred-site.xml.這些文件都在conf子目錄下。

在一個特定的模式下運行hadoop時，須要注意：（1）設置適當的屬性，並啓動hadoop的守護進程。 oracle

7/修改conf/core-site.xml，改成： ssh

viewplaincopytoclipboardprint?  
<configuration> 
<property> 
<name>fs.default.name</name> 
<value>hdfs://localhost:9000</value> 
</property> 
<property>
   <name>hadoop.tmp.dir</name>
   <value>/home/data/hadoop</value>
   <description>A base for other temporary directories.</description>
</property>
</configuration>

8/修改conf/hdfs-site.xml，改成：

viewplaincopytoclipboardprint?  
<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
</configuration>

9/修改conf/mapred-site.xml，改成： jvm

viewplaincopytoclipboardprint?  
<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>localhost:9001</value> 
</property> 
</configuration>

默認狀況下，Hadoop被配置成以非分佈式模式運行的一個獨立Java進程。這對調試很是有幫助。分佈式

10/設置本機ssh本機無密碼

　先測試一下，輸入命令sshlocalhost，若是提示密碼，則須要進行如下操做：
　$ssh-keygen-tdsa-P''-f~/.ssh/id_dsa
　$cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys

11/格式化namenode：
　$bin/hadoopnamenode-format

12/啓動Hadoop：
　$bin/start-all.sh

13/關閉hadoop

$bin/hadoop/stop-all.sh

$cd hadoop/bin

$./hadoop namenode -format //格式化hadoop namenode，不少時候namenode啓動不起來能夠試試格式化一下，會好使。

$./start-all.sh //啓動hadoop的各個監護進程

能夠經過http://localhost:50070 和http://localhost:50030 查看namenode和jobtracker。

$./stop-all.sh //關閉hadoop的各個監護進程

能夠參考：http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/