乾貨分享:CDC實時數據複製,大神教你調性能

數據實時複製任務的成與敗,取決於多方面的因素,例如:被複制數據自己狀況,源系統和目標系統的自身運行情況,網絡通信方面,系統架構設計和實施人員專業技術水平等等。面對複雜而艱鉅的任務,IBM 公司專業化實施團隊積累了豐富的經驗,如下是咱們此次分享的 IBM InfoSphere CDC性能調優的重點內容。html

1. 明白數據複製的需求和使用場景

改善並提高數據複製做業性能是雙向互動的操做,以知足業務需求和目標爲根本出發點,其緣由是:數據庫

  • 當對某個運行進程做了調優,並解決了該方面的性能瓶頸後,可能在該進程的上游或下游地方,又產生了新的性能瓶頸,讓你很難能作到調整某一部分,就能解決性能上存在的所有問題。
  • 數據複製過程當中,業務運做在不一樣時間段內會有不一樣的要求,並非一成不變的。例如:在業務交易時間段,數據實時變動頻繁,對 CDC 時延(Data Latency)要求較高,才能達致業務目標;可是,在業務日終結算處理時間段,則更多地聚焦於海量數據的後期加工和批量處理,反而對 CDC 時延(Data Latency)要求較低。

所以,咱們在優化數據複製的做業運行性能時,一切以業務需求爲目標,採起合適手段來解決問題。不然,難以一箭雙鵰,還影響業務運做。性能優化

2. 監控整體性能狀況

在肯定調優方案前,須要監察 CDC 數據複製做業的整體性能情況,其中包括:網絡

CDC DataStore 健康情況。架構

數據管理

CDC進程運行時內存的使用狀況,佔用率最高達 70%左右爲最佳工具

數據管理

數據管理

利用 CDC Management Console探測潛在的性能瓶頸性能

數據管理

如下例子,其監控信息結果說明了目標端系統是性能瓶頸,數據從源系統複製傳送速度快於目標系統的處理速度。測試

數據管理

3. 收集做業運行統計信息以進行分析

IBM CDC 提供了全面收集做業運行過程當中性能明細信息的有效手段,如下是以複製 Oracle 數據庫數據的做業爲例子,所收集的信息種類和手段。大數據

數據管理

4. 完成性能調優任務

根據上述的複製Oracle 數據庫數據的做業爲例子,肯定調優的方法以下。優化

數據管理

該策略爲:

  • 在源系統保持捕獲合理的數據增量和傳送數據量 batch size;
  • 在目標系統調整合理的更新數據量 batch size,並僅對變化的字段進行更新(缺省是所有字段更新),以發揮最大處理性能;
  • 須要有豐富數據庫性能調優經驗和 IBM CDC 工具熟練使用技巧。

5. 評估性能優化結果

IBM CDC 做業調優前,其運行結果:

數據管理

從上圖信息可發現:數據從源系統不斷地快速複製傳送到目標系統,可是目標系統性能存在瓶頸,時延不斷地增大到最高峯值而沒回落,直到數據複製快結束時纔開始回落。

IBM CDC 做業調優後,其運行結果:

數據管理

從上圖信息可發現:目標系統 CPU資源使用率明顯地比源系統高得多,數據庫性能得以充分發揮。數據複製的時延不算高,平均值和峯值差距不大。所以,CDC 做業調優工做是富有成效的。 相對比其餘友商的測試結果, IBM CDC 綜合能力和主要功能都稍勝一籌。若是有興趣想了解更多的 IBM CDC數據複製技術及經驗,請參閱:http://bigdata.evget.com/

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

相關文章
相關標籤/搜索