hadoop的核心。包括文件系統、遠程調用RPC的序列化函數。 node
高吞吐量分佈式文件系統。是GFS的開源實現。經過hadoop fs命令來讀取。 linux
大型分佈式合併/計算數據處理模型。Google MapReduce的開源實現。 shell
Cassandra : 由Facebook開發分佈式數據倉庫。apache已經將Cassandra應用到各類雲計算系統中。
Hbase : 結構化分部式數據庫。BigTable的開源實現。
Hive : 提供摘要和查詢功能的數據倉庫。
數據庫
每一個節點都是一個Java進程。 apache
在一個hadoop系統中只有一個namenode。一旦主控服務器宕機,整個系統將沒法運行。
namenode是整個hadoop系統的守護進程。
負責記錄文件是如何分割成數據塊。
管理數據塊分別存儲到哪些數據節點上。
對內存進行集中管理。 ubuntu
監控HDFS狀態的輔助後臺程序。如保存namenode的快照。 服務器
用戶鏈接應用程序和hadoop。每個hadoop集羣中只一個 JobTracker,通常它運行在Master節點上。 eclipse
負責與DataNode進行結合。 ssh
集羣中的每一個從服務器都運行一個DataNode後臺程序,負責將HDFS數據塊寫到本地的文件系統。 分佈式
本例系統爲Ubuntu10.04LTS。初始用戶hm,主機名hm-ubuntu。建議分配內存至少1G,安裝略。
sudo passwd 用戶名
sudo chfn -f 新名字 原名字
usermod -l 新名字 -d /home/新名字 -m 原名字
由於系統是複製ha得來,用戶組仍爲ha。對後續操做沒有不良影響。
hm@hm-ubuntu:~$ sudo gedit /etc/hostname
hm@hm-ubuntu:~$ sudo gedit /etc/hosts
openssh-client_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-client.deb openssh-server_5.3p1-3ubuntu3_i386.deb 重命名爲openssh-server.deb ssh_5.3p1-3ubuntu3_all.deb 重命名爲ssh.deb
sudo dpkg -i openssh-client.deb
sudo dpkg -i openssh-server.deb
sudo dpkg -i ssh.deb
當要求「Enter passphrase (empty for no passphrase) :」以及再次輸入時直接回車
sudo chmod 700 -R .ssh
使用cat命令: authorized_keys 務必和ssh_config中的配置徹底一致!
sudo cat id_rsa.pub >> authorized_keys
使用cp命令: authorized_keys
sudo cp id_rsa.pub authorized_keys
chmod 600 authorized_keys
jdk-6u24-linux-i586.bin。務必與hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同,或者後期根據此版本jdk製做插件。
(1)進入安裝目錄:
(2)爲當前用戶賦予安裝此文件的權限,執行安裝:
... ...
hadoop-1.1.2-bin.tar.gz。後期hadoop-eclipse-plugin-*.jar插件須符合此版本。
http://mirrors.cnnic.cn/apache/hadoop/common/
... ...
export JAVA_HOME=/usr/jdk1.6.0_24 exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$PATH export PATH=/usr/hadoop-1.1.2/bin:$PATH
-end