Hadoop上路_02-hadoop介紹和環境準備

Hadoop介紹:

1. Hadoop項目組成:

        

        1hadoop Common :

                hadoop的核心。包括文件系統、遠程調用RPC的序列化函數。 node

        2HDSF : 

                高吞吐量分佈式文件系統。是GFS的開源實現。經過hadoop fs命令來讀取。 linux

        3MapReduce : 

                大型分佈式合併/計算數據處理模型。Google MapReduce的開源實現。 shell

        4)其它

                Cassandra : 由Facebook開發分佈式數據倉庫。apache已經將Cassandra應用到各類雲計算系統中。
                Hbase : 結構化分部式數據庫。BigTable的開源實現。
                Hive : 提供摘要和查詢功能的數據倉庫。

數據庫

2. Hadoop系統構成:

        每一個節點都是一個Java進程。  apache

          

        namenode:主控節點  

                在一個hadoop系統中只有一個namenode。一旦主控服務器宕機,整個系統將沒法運行。
                namenode是整個hadoop系統的守護進程。 
                負責記錄文件是如何分割成數據塊。
                管理數據塊分別存儲到哪些數據節點上。
                對內存進行集中管理。  ubuntu

        secondarynamenode:輔助節點  

                監控HDFS狀態的輔助後臺程序。如保存namenode的快照。 服務器

        jobtracker:下發任務(拆分數據)  

                用戶鏈接應用程序和hadoop。每個hadoop集羣中只一個 JobTracker,通常它運行在Master節點上。 eclipse

        tacktracker:執行任務(接收數據)  

                負責與DataNode進行結合。 ssh

        datanode:數據存儲  

                集羣中的每一個從服務器都運行一個DataNode後臺程序,負責將HDFS數據塊寫到本地的文件系統。   分佈式

一.配置VirtualBox虛擬機和Ubuntu

本例系統爲Ubuntu10.04LTS。初始用戶hm,主機名hm-ubuntu。建議分配內存至少1G,安裝略。

1.爲虛擬機安裝加強功能:

        

          

2.Ubuntu初始化root用戶:

        
 

3.修改用戶(若是須要):

          

1)修改用戶密碼:
sudo passwd 用戶名

          

2)在當前用戶下修改用戶名:
sudo chfn -f 新名字 原名字

        

3)註銷當前用戶,使用root登錄:

              

usermod -l 新名字 -d /home/新名字 -m 原名字

        

4)註銷root用戶,使用新用戶名登錄:

            

5)根據須要修改hostnamehosts。  

6)注意:用戶組沒有改變,彷佛不太要緊。  

        由於系統是複製ha得來,用戶組仍爲ha。對後續操做沒有不良影響。    

4.配置hostnamehosts

1HOSTNAME

hm@hm-ubuntu:~$ sudo gedit /etc/hostname

          

2HOSTS
hm@hm-ubuntu:~$ sudo gedit /etc/hosts

          

3)重啓系統。


5.安裝OpenSSH

openssh-client_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-client.deb  
openssh-server_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-server.deb   
ssh_5.3p1-3ubuntu3_all.deb             重命名爲ssh.deb

1)安裝openssh-client

sudo dpkg -i openssh-client.deb

         

2)安裝openssh-server

sudo dpkg -i openssh-server.deb

         

3)安裝ssh-all

sudo dpkg -i ssh.deb

         

4)修改OpenSSH配置(跳過):

            

5)建立密鑰的空密碼文件:

當要求「Enter passphrase (empty for no passphrase) :」以及再次輸入時直接回車

          

6)配置.ssh目錄權限(跳過):

sudo chmod 700 -R .ssh

7)建立自動驗證密碼文件:

         

使用cat命令: authorized_keys 務必和ssh_config中的配置徹底一致!  

sudo cat id_rsa.pub >> authorized_keys

          

使用cp命令: authorized_keys 

sudo cp id_rsa.pub authorized_keys

          

8設置authorized_keys權限(跳過):

chmod 600 authorized_keys

9)測試ssh無密碼登錄:

        
        

6.安裝JDK

jdk-6u24-linux-i586.bin。務必與hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同,或者後期根據此版本jdk製做插件。  

1)安裝bin文件:

(1)進入安裝目錄:

        

(2)爲當前用戶賦予安裝此文件的權限,執行安裝:

         
        ... ...  
        

2)配置jdk到環境變量:

          

3)重載配置文件,使之當即生效:

        

4測試jdk:

          

7.安裝Hadoop

hadoop-1.1.2-bin.tar.gz。後期hadoop-eclipse-plugin-*.jar插件須符合此版本。  

http://mirrors.cnnic.cn/apache/hadoop/common/     

1)解壓文件:

         
        ... ...  
          

2)配置hadoop到環境變量:

export JAVA_HOME=/usr/jdk1.6.0_24
exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
export PATH=/usr/hadoop-1.1.2/bin:$PATH

         

3)重載系統配置文件,使之當即生效:

        
-end 

相關文章
相關標籤/搜索