1、cdh是什麼
CDH is Cloudera’s 100% open source Hadoop distribution, built specifically to meet enterprise demands
即一個開源的分佈式存儲系統
2、cdh4包含了哪些軟件和功能
首先hbase,hadoop,zookeeper這些是必不可少的
其次hive,oozie,Map/Reduce也能夠集成在其中
HBase是一個分佈式的、面向列的開源數據庫,該技術來源於Chang et al所撰寫的Google論文「Bigtable:一個結構化數據的分佈式存儲系統」
hadoop是一個分佈式系統基礎架構,由Apache基金會開發。用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力高速運算和存儲
ZooKeeper是Hadoop的正式子項目,它是一個針對大型分佈式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分佈式同步、組服務等
hive是基於Hadoop的一個數據倉庫工具,能夠將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,能夠將sql語句轉換爲MapReduce任務進行運行
Oozie是一種框架,它讓咱們能夠把多個Map/Reduce做業組合到一個邏輯工做單元中
MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Reduce(化簡)",和他們的主要思想,都是從函數式編程語言裏借來的,還有從矢量編程語言裏借來的特性。他極大地方便了編程人員在不會分佈式並行編程的狀況下,將本身的程序運行在分佈式系統上
3、cdh4的安裝
cdh4安裝通常來說通俗的方法就是登陸官方網站http://www.cloudera.com/blog/2012/02/introducing-cdh4/
下載所需rpm包,根據官方文檔,一路yum安裝,最後配置便可node
這裏我要介紹的是經過cloudera-manager來安裝cdh4的安裝過程
cloudera-manager也是apache基金會的產品,目前有免費版與商業版兩種,免費版只支持50個節點,商業版不限制
固然通常狀況50個節點也就夠用了,這裏咱們用的就是cloudera-manager的免費版
官方下載地址:https://ccp.cloudera.com/display/SUPPORT/Downloads
1.安裝環境
node1:192.168.1.124 centos6.2系統
node2:192.168.1.163 centos6.2系統
iptables關閉
selinux關閉
2.安裝cloudera-manager
node1:
官方下載後會獲得一個可執行文件cloudera-manager-installer.bin
這裏須要咱們事先安裝X Window System包組,緣由很簡單,圖形化安裝界面
這裏安裝時會自動yum安裝他所須要的包,大約有100多M,yum安裝,自動下載的,因爲是外國的源,加上公司限速,天朝的種種策略等,常常會致使卡死不動,一天也安裝不完的情況
個人安裝方法是直接中斷圖形化界面的安裝,就是直接kill掉,這時候他須要導入的yum源已經導入到咱們的系統裏了
根據yum源裏面的鏈接http://archive.cloudera.com/cm4/redhat/6/x86_64/cm/4.0.4/
本身手動下載,以下包linux
下載完成後,使用yum本地安裝
yum localinstall --nogpgcheck *.rpm
yum安裝完成後,從新運行cloudera-manager-installer.bin完成安裝(若是安裝失敗,提示已安裝,則進入/usr/share/cmf目錄中,刪除掉uninstall-cloudera-manager.sh文件便可)
附1:兩臺主機都要裝,只是一臺運行圖形化界面,做爲控制檯,另外一臺不用動,這裏我是使用的node1節點做爲控制檯
附2:兩臺主機jdk也要實現安裝好,不然也會自動下載安裝,推薦用rpm包安裝的jdk
3.安裝cdh4
①.cloudera-manager安裝完成後,會自動啓動,能夠經過netstat -tnlp發現啓動了7182,7180等端口web
經過網頁鏈接http://192.168.1.124:7180進入cloudera-manager的web管理入口,默認管理員用戶admin,密碼adminsql
登陸以後會提示以下框,便是使用免費版仍是商業版,咱們選擇無償使用shell
②.以後就是徹底cloudera-manager控制檯web界面的安裝,很簡單
首先搜索主機,將兩主機ip填入,搜索到主機,而後選擇安裝數據庫
安裝版本cdh4,等等,而後就是讀條的安裝頁面,這裏跟安裝cloudera-manager同樣,yum源文件出來以後,直接中斷,而後回到系統kill掉yum進程,關閉頁面
,經過/etc/yum.repos.d/cloudera-cdh4.repo查看所需下載軟件鏈接http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/下載以下rpm包apache
而後跟上面同樣,yum localinstall --nogpgcheck *.rpm
最後從新打開http://192.168.1.124:7180頁面從新對主機進行安裝
附1:cloudera-manager控制檯對於已經安裝過的軟件包再也不從新下載安裝
附2:若是網速好的話,能夠不用中斷,直接圖形化界面等待安裝完成,可是若是失敗了,千萬不要點重試,重試會卸載已安裝內容,也就是重頭再來,因爲外國的源,網速神馬的都懂的
③.安裝玩以上內容後,會有個主機檢測,主機多的話會比較慢,這個看我的而定,檢測完以後,能夠選擇服務,這裏我選擇的是hbase,hadoop,zookeeper,而後啓動服務
服務情況實時檢測編程
主機情況實時檢測centos
進入主機,打開hbase shell測試架構
到這裏cdh4框架就可使用了 附:對於沒有選擇的服務,默認也是不啓動的,這個不用擔憂,若是須要用到hive等,可自行手動執行