Hadoop初步體驗（安裝與測試）

時間 2019-11-11

原文原文鏈接

簡述：Hadoop是最著名使用最普遍的分佈式大數據處理框架，它是用Java開發的。java

物理主機、虛擬機、虛擬主機這三個就很少說了。咱們先在ubuntu裏添加一個叫hadoop的用戶node

‍1：安裝jdk‍linux

安裝jdk： apache

#切換到root用戶
su root

#進入用戶編譯的目錄
cd /usr/local/lib
#將jdk壓縮包解壓到當前路徑
tar -zxvf [jdk文件路徑]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz

#編輯linux配置文件
gedit /etc/profile
#添加以下文字
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75    
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
#保存文件

#將jdk1.7.0_75目錄的擁有者改成root組的root用戶
chown root:root -R /usr/local/lib/jdk1.7.0_75
#更改目錄和文件的模式
chmod 755 -R /usr/local/lib/jdk1.7.0_75
#生效
source /etc/profile

#測試jdk，這條命令檢查jdk安裝是否成功。運行這條命令，只要沒有報錯就代表安裝成功了。
java -version

2：在虛擬機中安裝hadoopubuntu

下載hadoop：hadoop-1.2.1.tar.gzoracle

安裝hadoop：框架

#切換到hadoop用戶
su hadoop

#進入第三方包目錄
cd /opt
tar -xvzf [hadoop文件路徑]/hadoop-1.2.1.tar.gz

#進入hadoop目錄，配置幾個文件

#core-site.xml
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

#mapred-site.xml
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>

#hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

#在hadoop-env.sh文件裏添加以下一條語句：
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75

3：安裝rsync和sshssh

sudo apt-get install ssh rsync
ssh-keygen -t dsa -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost

4：啓動hadoop
分佈式

#進入hadoop目錄
cd /opt/hadoop-1.2.1

#格式化hadoop_namenode
./bin/hadoop namenode -format

#啓動hadoop全部節點
./bin/start-all.sh

5：測試（詞頻統計）

#進入hadoop目錄
cd /opt/hadoop-1.2.1

#將當前目錄下的README.txt放到hadoop進行測試
./bin/hadoop fs -put README.txt readme.txt

#運行hadoop 的examples 的wordcount，測試hadoop 的執行。
./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output

#這條命令查看處理結果
./bin/hadoop fs -cat output/part-r-00000