你們好。很久不見。 node
一直以來,對大數據都很感興趣,最近買了幾臺機器,開始搞數據分析了。其實想一想,花不了多少錢,可是能一直搞一直爽,挺不錯的。爽過裝了黑蘋果。吐個槽,黑蘋果裝一下一百二,等我學會了我本身也裝一下。mysql
CDH是目前名副其實的Top 1的大數據組件包了,其中也包含了已經公線給Apache的Impala項目,很好用。以前單獨研究spark的時候曾經想過,若是說我須要一個大數據的實時查詢引擎,要怎麼用spark實現?真正意義的流處理,要怎麼用spark實現?sql
真正意義的流處理,應當用flink來實現,用Micro Batch實現的都不能算真正意義的stream。那麼真正的海量實時查詢呢?目前看,比較合適的就是Impala了。數據庫
Impala是有Cloudera開源並貢獻給Apache的一個實時的,基於SQL方言的分佈式查詢系統。支持JDBC,使用hive2的驅動便可。支持直接讀取hive、hbase以及文件中的數據。支持INSERT語句。簡單來講,sqoop從mysql抽數據到hive,impala刷新一下metadata之後就能夠直接查詢,很是方便。例如在企業級數據分析場景裏,各類數據匯聚到hive中,直接進行分析查詢,而且把數據丟回hive中展現,完美兼容常見組件。json
限於篇幅,此次先介紹一下Cloudera Data HUB(CDH)的安裝過程。CDH自己是能夠經過一個單獨的bin安裝完畢的。若是這樣安裝,程序會把全部須要的組件都經過網絡下載到本地。這樣的安裝過程太慢,太艱難。並且Linux安裝的話,須要一直經過ssh連在服務器上,若是中間斷了的話。。。服務器
emmmmm......網絡
因此咱們須要快捷的可靠的安裝。oracle
CDH整個環境能夠分爲三部分,分別是server、agent、大數據組件。CDH主要使用Java、Python開發。大數據組件主要使用Java、C++等語言開發。server負責提供可視化的環境,供管理員管理和配置系統。此外server還要管理大數據組件的全部運行細節。agent負責向server彙報每一個node的運行情況,接收server發出的指令,如修改配置等。大數據組件負責完成大數據業務處理。前面說的bin主要完成的工做,就是下載上面說的三種組件,完成安裝。其中大數據組件是經過parcel包的方式提供的,其他是經過rpm方式提供。咱們能夠提早把全部安裝包下載到本地,再模擬CDH Manager的文件結構,讓server識別到便可。ssh
bin下載路徑分佈式
https://archive.cloudera.com/cm6/6.2.0/cloudera-manager-installer.bin
rpm下載路徑(共6個包):
https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/*.rpm
parcel下載路徑
https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel
https://archive.cloudera.com/cdh6/6.2/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373-el6.parcel.sha1
https://archive.cloudera.com/cdh6/6.2/parcels/manifest.json
上面舉例的,是基於CentOS7環境的,CDH 6.2.0安裝所需的包。首先先將全部的文件都下載到待安裝的Linux主機上。下載完成後,經過rpm -ivh的方式將包依次安裝。若是提示缺乏cloudera相關包,調整順序後繼續安裝。若是缺乏第三方包則能夠經過yum install xx.rpm的方式補齊。其中名稱爲cloudera-manager-server-db-2-6.2.0-968826.el7.x86_64.rpm的包先不要安裝。若是你預先安裝了,CDH會認爲你已經安裝過一個版本,須要刪除etc下的數據庫配置文件。安裝應首先從oracle JDK開始,隨後是daemon。
完成rpm安裝後,chmod u+x cloudera-manager-installer.bin,並執行之便可。執行完畢後,命令行會提示安裝完畢,能夠經過7180端口訪問管理器。實際此時只是安裝完畢,並無啓動完畢。請關注/var/log/cloudera-scm-server/cloudera-scm-server.log,直到提示7180端口可用。
看到提示後,訪問管理器,地址是http://x.x.x.x:7180/cmf。默認用戶名密碼都是admin。登陸後界面以下圖。若是能看到登陸界面,則須要將以前下載的parcel文件放到/opt/cloudera/parcel-repo/目錄中,並將用戶和組都改成cloudera-scm。
此處點擊繼續後,系統會引導到安裝界面。包括搜索並添加集羣內的主機、添加互信信息等。其中有一個步驟須要注意。當選擇安裝的parcel時,會提示選擇資源庫所在位置,默認選中的是下圖中紅框所示。不要選擇紅框所示,須要改成上面的第一個選項。
後續步驟就一直下一步下一步便可。到下圖所示步驟時,說明CDH正在部署環境,靜待完成既可。
系統安裝完畢並登陸後,運行界面以下圖所示。
若是在系統剛部署完成,管理器提示有部分配置不合理或者運行警告,能夠暫時先忽略,等agent上報一段時間數據後再試。其中會提示各類組件的堆內存不足,請自行根據機器硬件條件處理。若是是測試環境能夠使用默認的postgresql,正式環境建議使用MySQL或者Oracle。