咱們經常會思考什麼樣的數據纔是大數據,只有數據量大才能真正稱之爲大數據嗎?其實否則,大數據的特徵應該包括數量、速度,多樣性和精準性這四個方面,也就是一般所說的4個V: Volume,Velocity,Variety 和Veracity。以下圖所示:html
所以,數量大小隻是描述大數據的其中一個維度,今天,咱們不妨換個思路來聊聊大數據的另外一個重要特徵:Velocity(速度),看看如何將傳統數據庫中的數據快速、實時、準確地應用到大數據平臺。快速獲取,快速分析,快速應用,快速實現,從而幫助企業提高自身的競爭力並創造巨大的商業價值。數據庫
IBM 大數據產品介紹瀏覽器
InfoSphere Change Data Capture(如下簡稱CDC)用於捕獲源端交易數據庫如DB2,Oracle的數據變化,並實時複製到目標數據庫、消息隊列、以及ETL解決方案(例如IBM InfoSphere DataStage)。架構
InfoSphere BigInsights由Hadoop分佈式文件系統(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態系統子項目構成,用於分析和展示基於Apache Hadoop的海量數據。 接下來,咱們將經過一個智能電錶的應用案例來演示CDC如何將實時的增量數據複製到InfoSphere BigInsights的HDFS中。jsp
系統架構分佈式
在下圖所示的系統架構中,源端各類異構平臺的傳統數據庫所產生的變化數據經過CDC的複製引擎源源不斷的流向目標端 InfoSphere BigInsights 大數據平臺,全部關係型結構化數據的實時更新都會以文件的形式或格式存儲在HDFS文件系統中。oop
應用場景:智能電錶系統大數據
某公共事業公司利用智能儀表採集客戶平常使用水,電,煤氣等數據信息,這些信息的數據量龐大且實時變化快,經過分析這些儀表數據能及時瞭解客戶的使用模式和習慣,以及費用開銷。好比說該公司經過測量高峯期的用電量,可以收取更多的費用,可以設置客戶用電的使用上限,能夠建立激勵機制讓客戶在特殊時段減小用電量等等。spa
該公司經過構建InfoSphere CDC + InfoSphere BigInsights的智能電錶系統來實現以上這些業務功能,即CDC捕獲電錶系統的變化數據,並實時複製到BigInsights的HDFS文件系統,接着BigInsights對傳送過來的實時海量數據進行復雜計算和模型分析,從而及時準確地響應了以上業務需求。命令行
配置CDC到BigInsights(HDFS)的數據複製
安裝並初始化InfoSphere BigInsights運行環境
1)首先,須要完成InfoSphere BigInsights的安裝,安裝完成後,Hadoop集羣環境也隨之搭建好了。而後,咱們要確認環境變量是否設置正確
* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。
* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。
若是以上環境變量沒有設置,咱們也能夠運行BigInsights自帶的腳本程序biginsights-env.sh進行自動化設置,該腳本所在目錄爲
BigInsights_install_dir/conf.
2)缺省狀況下,環境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,咱們還需添加如下JAR包到CLASSPATH中:
* commons-configuration-1.6.jar
* commons-logging-1.1.1.jar
* commons-lang-2.4.jar
這些JAR包路徑爲:BigInsights_install_dir/IHC/lib directory/
2. 啓動InfoSphere BigInsights Hadoop集羣中的HDFS組件
InfoSphere BigInsights自己已集成了不少Hadoop組件,例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務能夠經過InfoSphere BigInsights控制檯或命令行啓動。例如在Web瀏覽器中打開InfoSphere BigInsights管理控制檯:
http://server:8080/data/html/index.html#redirect-welcome
而後,在管理控制檯中選擇並啓動HDFS服務.
3. 安裝InfoSphere CDC for InfoSphere BigInsights,
並在BigInsights中建立HDFS目錄
在InfoSphere BigInsights管理控制檯中選中「Files」標籤.
以下圖所示,建立HDFS目錄,用於寫入CDC從源端數據庫中捕獲並複製過來的增量數據.
建立CDC實例
在CDC實例中建立預訂(Subscription),並將源端數據庫的表映射到剛剛已建立的HDFS目錄中的某個文件。HDFS目錄格式爲:
hdfs://your-server:9000/目錄名稱/文件名
啓動CDC複製數據並查看目標端所生成的HDFS文件
通過以上步驟,咱們已完成了BigInsights和CDC的安裝及配置,接下來即可啓動CDC預訂開始數據的實時複製了
當咱們回到BigInsights的管理控制檯,選中「File」標籤,能夠觀察到在指定的HDFS目錄路徑下已生成從源端複製過來的增量數據。
可能有人會問,InfoSphere CDC 難道只能和IBM自家的大數據平臺BigInsights集成嗎?固然不是,CDC能提供對各大Hadoop廠商的普遍支持,例如:HortonWorks Data Platform(HDP),Cloudera CDH,Apache Hadoop等。
若是你們感興趣的話,歡迎與咱們聯繫!
截止時間:2016年12月31日
更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>
詳情請諮詢在線客服!
客服熱線:023-66090381