InfoSphere CDC 企業傳統數據到大數據集成的加速器

時間 2019-11-13

標籤 infosphere cdc 企業傳統數據集成简体版

原文原文鏈接

咱們經常會思考什麼樣的數據纔是大數據,只有數據量大才能真正稱之爲大數據嗎？其實否則,大數據的特徵應該包括數量、速度，多樣性和精準性這四個方面,也就是一般所說的4個V: Volume,Velocity,Variety 和Veracity。以下圖所示：html

所以，數量大小隻是描述大數據的其中一個維度，今天，咱們不妨換個思路來聊聊大數據的另外一個重要特徵：Velocity(速度)，看看如何將傳統數據庫中的數據快速、實時、準確地應用到大數據平臺。快速獲取，快速分析，快速應用，快速實現，從而幫助企業提高自身的競爭力並創造巨大的商業價值。數據庫

IBM 大數據產品介紹瀏覽器

InfoSphere Change Data Capture(如下簡稱CDC)用於捕獲源端交易數據庫如DB2，Oracle的數據變化，並實時複製到目標數據庫、消息隊列、以及ETL解決方案(例如IBM InfoSphere DataStage)。架構

InfoSphere BigInsights由Hadoop分佈式文件系統(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態系統子項目構成，用於分析和展示基於Apache Hadoop的海量數據。接下來，咱們將經過一個智能電錶的應用案例來演示CDC如何將實時的增量數據複製到InfoSphere BigInsights的HDFS中。jsp

系統架構分佈式

在下圖所示的系統架構中，源端各類異構平臺的傳統數據庫所產生的變化數據經過CDC的複製引擎源源不斷的流向目標端 InfoSphere BigInsights 大數據平臺，全部關係型結構化數據的實時更新都會以文件的形式或格式存儲在HDFS文件系統中。oop

應用場景：智能電錶系統大數據

某公共事業公司利用智能儀表採集客戶平常使用水，電，煤氣等數據信息，這些信息的數據量龐大且實時變化快，經過分析這些儀表數據能及時瞭解客戶的使用模式和習慣，以及費用開銷。好比說該公司經過測量高峯期的用電量，可以收取更多的費用，可以設置客戶用電的使用上限，能夠建立激勵機制讓客戶在特殊時段減小用電量等等。spa

該公司經過構建InfoSphere CDC + InfoSphere BigInsights的智能電錶系統來實現以上這些業務功能，即CDC捕獲電錶系統的變化數據，並實時複製到BigInsights的HDFS文件系統，接着BigInsights對傳送過來的實時海量數據進行復雜計算和模型分析，從而及時準確地響應了以上業務需求。命令行

配置CDC到BigInsights(HDFS)的數據複製

安裝並初始化InfoSphere BigInsights運行環境

1）首先，須要完成InfoSphere BigInsights的安裝，安裝完成後，Hadoop集羣環境也隨之搭建好了。而後，咱們要確認環境變量是否設置正確

* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。

* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。

若是以上環境變量沒有設置，咱們也能夠運行BigInsights自帶的腳本程序biginsights-env.sh進行自動化設置，該腳本所在目錄爲

BigInsights_install_dir/conf.

2）缺省狀況下,環境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,咱們還需添加如下JAR包到CLASSPATH中:

* commons-configuration-1.6.jar

* commons-logging-1.1.1.jar

* commons-lang-2.4.jar

這些JAR包路徑爲：BigInsights_install_dir/IHC/lib directory/

2. 啓動InfoSphere BigInsights Hadoop集羣中的HDFS組件

InfoSphere BigInsights自己已集成了不少Hadoop組件，例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務能夠經過InfoSphere BigInsights控制檯或命令行啓動。例如在Web瀏覽器中打開InfoSphere BigInsights管理控制檯：

http://server:8080/data/html/index.html#redirect-welcome

而後，在管理控制檯中選擇並啓動HDFS服務.

3. 安裝InfoSphere CDC for InfoSphere BigInsights，

並在BigInsights中建立HDFS目錄

在InfoSphere BigInsights管理控制檯中選中「Files」標籤.

以下圖所示，建立HDFS目錄，用於寫入CDC從源端數據庫中捕獲並複製過來的增量數據.

建立CDC實例

在CDC實例中建立預訂(Subscription)，並將源端數據庫的表映射到剛剛已建立的HDFS目錄中的某個文件。HDFS目錄格式爲：

hdfs://your-server:9000/目錄名稱/文件名

啓動CDC複製數據並查看目標端所生成的HDFS文件

通過以上步驟，咱們已完成了BigInsights和CDC的安裝及配置，接下來即可啓動CDC預訂開始數據的實時複製了

當咱們回到BigInsights的管理控制檯，選中「File」標籤，能夠觀察到在指定的HDFS目錄路徑下已生成從源端複製過來的增量數據。