Hadoop上路_02-hadoop介紹和環境準備

時間 2019-11-09

標籤 hadoop 上路介紹環境準備欄目 Hadoop 简体版

原文原文鏈接

Hadoop介紹：

1. Hadoop項目組成：

1）hadoop Common :

hadoop的核心。包括文件系統、遠程調用RPC的序列化函數。 node

2）HDSF :

高吞吐量分佈式文件系統。是GFS的開源實現。經過hadoop fs命令來讀取。 linux

3）MapReduce :

大型分佈式合併/計算數據處理模型。Google MapReduce的開源實現。 shell

4）其它：

      Cassandra : 由Facebook開發分佈式數據倉庫。apache已經將Cassandra應用到各類雲計算系統中。
      Hbase : 結構化分部式數據庫。BigTable的開源實現。
      Hive : 提供摘要和查詢功能的數據倉庫。

數據庫

2. Hadoop系統構成：

每一個節點都是一個Java進程。 apache

namenode：主控節點

      在一個hadoop系統中只有一個namenode。一旦主控服務器宕機，整個系統將沒法運行。
      namenode是整個hadoop系統的守護進程。
      負責記錄文件是如何分割成數據塊。
      管理數據塊分別存儲到哪些數據節點上。
      對內存進行集中管理。 ubuntu

secondarynamenode：輔助節點

監控HDFS狀態的輔助後臺程序。如保存namenode的快照。服務器

jobtracker：下發任務（拆分數據）

用戶鏈接應用程序和hadoop。每個hadoop集羣中只一個 JobTracker,通常它運行在Master節點上。 eclipse

tacktracker：執行任務（接收數據）

負責與DataNode進行結合。 ssh

datanode：數據存儲

集羣中的每一個從服務器都運行一個DataNode後臺程序，負責將HDFS數據塊寫到本地的文件系統。分佈式

一．配置VirtualBox虛擬機和Ubuntu：

本例系統爲Ubuntu10.04LTS。初始用戶hm，主機名hm-ubuntu。建議分配內存至少1G，安裝略。

1.爲虛擬機安裝加強功能：

2.爲Ubuntu初始化root用戶：

3.修改用戶（若是須要）：

1）修改用戶密碼：

sudo passwd 用戶名

2）在當前用戶下修改用戶名：

sudo chfn -f 新名字 原名字

3）註銷當前用戶，使用root登錄：

usermod -l 新名字 -d /home/新名字 -m 原名字

4）註銷root用戶，使用新用戶名登錄：

5）根據須要修改hostname和hosts。

6）注意：用戶組沒有改變，彷佛不太要緊。

由於系統是複製ha得來，用戶組仍爲ha。對後續操做沒有不良影響。

4.配置hostname和hosts：

1）HOSTNAME

hm@hm-ubuntu:~$ sudo gedit /etc/hostname

2）HOSTS

hm@hm-ubuntu:~$ sudo gedit /etc/hosts

3）重啓系統。

5.安裝OpenSSH：

openssh-client_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-client.deb  
openssh-server_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-server.deb   
ssh_5.3p1-3ubuntu3_all.deb             重命名爲ssh.deb

1）安裝openssh-client：

sudo dpkg -i openssh-client.deb

2）安裝openssh-server：

sudo dpkg -i openssh-server.deb

3）安裝ssh-all：

sudo dpkg -i ssh.deb

4）修改OpenSSH配置（跳過）：

5）建立密鑰的空密碼文件：

當要求「Enter passphrase (empty for no passphrase) :」以及再次輸入時直接回車

6）配置.ssh目錄權限（跳過）：

sudo chmod 700 -R .ssh

7）建立自動驗證密碼文件：

使用cat命令： authorized_keys 務必和ssh_config中的配置徹底一致！

sudo cat id_rsa.pub >> authorized_keys

使用cp命令： authorized_keys

sudo cp id_rsa.pub authorized_keys

8）設置authorized_keys權限（跳過）：

chmod 600 authorized_keys

9）測試ssh無密碼登錄：

6.安裝JDK：

jdk-6u24-linux-i586.bin。務必與hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同，或者後期根據此版本jdk製做插件。

1）安裝bin文件：

（1）進入安裝目錄：

（2）爲當前用戶賦予安裝此文件的權限，執行安裝：

  ... ...

2）配置jdk到環境變量：

3）重載配置文件，使之當即生效：

4）測試jdk：

7.安裝Hadoop：

hadoop-1.1.2-bin.tar.gz。後期hadoop-eclipse-plugin-*.jar插件須符合此版本。

http://mirrors.cnnic.cn/apache/hadoop/common/

1）解壓文件：

  ... ...

2）配置hadoop到環境變量：

export JAVA_HOME=/usr/jdk1.6.0_24
exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
export PATH=/usr/hadoop-1.1.2/bin:$PATH