簡述:Hadoop是最著名使用最普遍的分佈式大數據處理框架,它是用Java開發的。java
物理主機、虛擬機、虛擬主機這三個就很少說了。咱們先在ubuntu裏添加一個叫hadoop的用戶node
1:安裝jdklinux
下載jdk: jdk-7u75-linux-x64.tar.gzshell
安裝jdk: apache
#切換到root用戶 su root #進入用戶編譯的目錄 cd /usr/local/lib #將jdk壓縮包解壓到當前路徑 tar -zxvf [jdk文件路徑]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz #編輯linux配置文件 gedit /etc/profile #添加以下文字 export JAVA_HOME=/usr/local/lib/jdk1.7.0_75 export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin #保存文件 #將jdk1.7.0_75目錄的擁有者改成root組的root用戶 chown root:root -R /usr/local/lib/jdk1.7.0_75 #更改目錄和文件的模式 chmod 755 -R /usr/local/lib/jdk1.7.0_75 #生效 source /etc/profile #測試jdk,這條命令檢查jdk安裝是否成功。運行這條命令,只要沒有報錯就代表安裝成功了。 java -version
2:在虛擬機中安裝hadoopubuntu
下載hadoop:hadoop-1.2.1.tar.gzoracle
安裝hadoop:框架
#切換到hadoop用戶 su hadoop #進入第三方包目錄 cd /opt tar -xvzf [hadoop文件路徑]/hadoop-1.2.1.tar.gz #進入hadoop目錄,配置幾個文件 #core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> #mapred-site.xml <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration> #hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> #在hadoop-env.sh文件裏添加以下一條語句: export JAVA_HOME=/usr/local/lib/jdk1.7.0_75
3:安裝rsync和sshssh
sudo apt-get install ssh rsync ssh-keygen -t dsa -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys ssh localhost
4:啓動hadoop
分佈式
#進入hadoop目錄 cd /opt/hadoop-1.2.1 #格式化hadoop_namenode ./bin/hadoop namenode -format #啓動hadoop全部節點 ./bin/start-all.sh
5:測試(詞頻統計)
#進入hadoop目錄 cd /opt/hadoop-1.2.1 #將當前目錄下的README.txt放到hadoop進行測試 ./bin/hadoop fs -put README.txt readme.txt #運行hadoop 的examples 的wordcount,測試hadoop 的執行。 ./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output #這條命令查看處理結果 ./bin/hadoop fs -cat output/part-r-00000