InfoSphere CDC 企業傳統數據到大數據集成的加速器

大數據

咱們經常會思考什麼樣的數據纔是大數據,只有數據量大才能真正稱之爲大數據嗎?其實否則,大數據的特徵應該包括數量、速度,多樣性和精準性這四個方面,也就是一般所說的4個V: Volume,Velocity,Variety 和Veracity。以下圖所示:html

大數據

所以,數量大小隻是描述大數據的其中一個維度,今天,咱們不妨換個思路來聊聊大數據的另外一個重要特徵:Velocity(速度),看看如何將傳統數據庫中的數據快速、實時、準確地應用到大數據平臺。快速獲取,快速分析,快速應用,快速實現,從而幫助企業提高自身的競爭力並創造巨大的商業價值。數據庫

IBM 大數據產品介紹瀏覽器

InfoSphere Change Data Capture(如下簡稱CDC)用於捕獲源端交易數據庫如DB2,Oracle的數據變化,並實時複製到目標數據庫、消息隊列、以及ETL解決方案(例如IBM InfoSphere DataStage)。架構

InfoSphere BigInsights由Hadoop分佈式文件系統(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態系統子項目構成,用於分析和展示基於Apache Hadoop的海量數據。 接下來,咱們將經過一個智能電錶的應用案例來演示CDC如何將實時的增量數據複製到InfoSphere BigInsights的HDFS中。jsp

系統架構分佈式

在下圖所示的系統架構中,源端各類異構平臺的傳統數據庫所產生的變化數據經過CDC的複製引擎源源不斷的流向目標端 InfoSphere BigInsights 大數據平臺,全部關係型結構化數據的實時更新都會以文件的形式或格式存儲在HDFS文件系統中。oop

大數據

應用場景:智能電錶系統大數據

某公共事業公司利用智能儀表採集客戶平常使用水,電,煤氣等數據信息,這些信息的數據量龐大且實時變化快,經過分析這些儀表數據能及時瞭解客戶的使用模式和習慣,以及費用開銷。好比說該公司經過測量高峯期的用電量,可以收取更多的費用,可以設置客戶用電的使用上限,能夠建立激勵機制讓客戶在特殊時段減小用電量等等。spa

該公司經過構建InfoSphere CDC + InfoSphere BigInsights的智能電錶系統來實現以上這些業務功能,即CDC捕獲電錶系統的變化數據,並實時複製到BigInsights的HDFS文件系統,接着BigInsights對傳送過來的實時海量數據進行復雜計算和模型分析,從而及時準確地響應了以上業務需求。命令行

大數據

配置CDC到BigInsights(HDFS)的數據複製

安裝並初始化InfoSphere BigInsights運行環境

1)首先,須要完成InfoSphere BigInsights的安裝,安裝完成後,Hadoop集羣環境也隨之搭建好了。而後,咱們要確認環境變量是否設置正確

* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。

* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。

若是以上環境變量沒有設置,咱們也能夠運行BigInsights自帶的腳本程序biginsights-env.sh進行自動化設置,該腳本所在目錄爲

BigInsights_install_dir/conf.

2)缺省狀況下,環境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,咱們還需添加如下JAR包到CLASSPATH中:

* commons-configuration-1.6.jar

* commons-logging-1.1.1.jar

* commons-lang-2.4.jar

這些JAR包路徑爲:BigInsights_install_dir/IHC/lib directory/

慧都控件網年底大促

2. 啓動InfoSphere BigInsights Hadoop集羣中的HDFS組件

InfoSphere BigInsights自己已集成了不少Hadoop組件,例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務能夠經過InfoSphere BigInsights控制檯或命令行啓動。例如在Web瀏覽器中打開InfoSphere BigInsights管理控制檯:

http://server:8080/data/html/index.html#redirect-welcome

而後,在管理控制檯中選擇並啓動HDFS服務.

3. 安裝InfoSphere CDC for InfoSphere BigInsights,

並在BigInsights中建立HDFS目錄

在InfoSphere BigInsights管理控制檯中選中「Files」標籤.

大數據

以下圖所示,建立HDFS目錄,用於寫入CDC從源端數據庫中捕獲並複製過來的增量數據.

大數據

建立CDC實例

在CDC實例中建立預訂(Subscription),並將源端數據庫的表映射到剛剛已建立的HDFS目錄中的某個文件。HDFS目錄格式爲:

hdfs://your-server:9000/目錄名稱/文件名

大數據

啓動CDC複製數據並查看目標端所生成的HDFS文件

通過以上步驟,咱們已完成了BigInsights和CDC的安裝及配置,接下來即可啓動CDC預訂開始數據的實時複製了

大數據

當咱們回到BigInsights的管理控制檯,選中「File」標籤,能夠觀察到在指定的HDFS目錄路徑下已生成從源端複製過來的增量數據。

大數據

可能有人會問,InfoSphere CDC 難道只能和IBM自家的大數據平臺BigInsights集成嗎?固然不是,CDC能提供對各大Hadoop廠商的普遍支持,例如:HortonWorks Data Platform(HDP),Cloudera CDH,Apache Hadoop等。

若是你們感興趣的話,歡迎與咱們聯繫!

慧都控件網年終促銷最後一波,全場6折起,豪禮搶不停>>>

截止時間:2016年12月31日

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

詳情請諮詢在線客服

客服熱線:023-66090381

相關文章
相關標籤/搜索