太平洋保險家園大數據項目DSG應用(30多個Oracle等實時同步到KAFKA)

太平洋保險集團
「家園項目」大數據平臺DSG應用(oracle&kafka)mysql

項目背景
根據太平洋保險集團的IT建設規劃,在2017年年末,須要完成「一個太保,共同的家園」項目(簡稱家園項目),旨在給客戶提供更加便攜、全面的服務,經過一個家園平臺,就可以完成全部的服務。
衆所周知,太平洋保險的業務範圍很是普遍,囊括了產險、壽險、車險等業務,同時,一個險種又由多個系統共同提供服務。如今要在一個平臺上完成這些服務,數據的匯聚、集中、轉換就成了整個項目的核心與難點。sql

項目需求
根據太保家園項目的最終目標,在一期建設中,須要將太平洋保險集團下屬的壽險,產險,車險等30多個核心繫統數據,經過實時同步複製的方式,統一集中到大數據平臺。其中涉及數據的轉換,標化,清洗,去重等一系列過程,具體需求以下:
一、 須要將核心數據從30多個系統同步到大數據平臺的kafka組件。
二、 確保數據複製的實時性(秒級)和數據的準確性
三、 複製的數據須要加上時間,操做類型等標籤,便於後端應用識別
四、 以生產環境的dg庫做爲數據的匯聚源端,減輕對生產庫的影響
五、 入kafka的數據格式可靈活配置,以便更好的適配後端應用
六、 須要具有數據操做統計和數據比對功能,便於覈對數據的準確性數據庫

項目難點
在實現整個家園項目的數據匯聚中,根據項目需求和實際的生產環境狀況,要完成整個數據同步,主要存在如下一些難點:json

  1. 涉及的業務系統衆多。據初步規劃,此平臺須要接入的核心生產系統有30多個,既有oracle,也有mysql、db2等,每一個系統的基礎平臺和數據格式千差萬別,
  2. 數據量大。目前整個平臺須要的數據容量超過30T。而且源端業務系統是很是嚴格的7x24小時系統,這就給初始化帶來很大的難度。
  3. 網絡帶寬資源有限。生產環境數據都在上海數據中心,大數據平臺在成都數據中心,中間的網絡帶寬是全部業務系統共用,所以不能過大佔用帶寬資源。
  4. 業務量大。數據庫天天的歸檔量均在800G以上,參與複製的核心表,每秒鐘均有幾百上千筆業務。
  5. 延遲時間短。因爲家園平臺須要給客戶提供實時的業務諮詢與辦理服務,複製的延遲不能超過10S,不然,用戶的體驗度大打折扣,違背家園項目建設的初衷。
  6. 數據準確性要求高。家園平臺承載着全部的查詢、部分業務辦理,若是數據不許確,必然引發業務邏輯混亂,沒法爲用戶提供服務等問題。後端

    解決方案
    在此方案中,採用DSG SuperSync產品完成oracle到kafka的數據複製,方案架構如上圖所示。在太保的系統架構中,生產中心位於上海,災備中心位於成都。全部核心系統在本地生產中心均建有一級DG庫,在成都災備中心建有二級DG庫。同時,這次項目的大數據中心也位於成都災備中心。基於這種架構考慮,把數據量較大的全量同步放在成都的二級DG庫上,這樣能夠節省上海到成都的帶寬資源,同時提升同步效率。同時增量同步放在上海本地的一級DG庫,以知足實時同步的要求。
    太平洋保險家園大數據項目DSG應用(30多個Oracle等實時同步到KAFKA)安全

    方案優點
    該方案具備如下優點:網絡

  7. 從架構層面,依賴於DSG產品對異構平臺的完美支持,將全量數據同步到集羣的hdfs,增量數據同步到kafka,很好地解決了兩個數據中心的網絡帶寬資源有限的問題。
  8. 爲減輕生產庫的壓力,支持以生產庫的DG庫做爲源端進行數據複製
  9. 經過cjson模板,可高度自定義入kafka的數據格式
  10. 可自定義輸出數據內容,針對採集的數據可進行增刪改操做後,投遞到kafka中
  11. 數據可校驗。投遞入kafka的數據,操做數據會經過明細,定時統計,累計統計三個維度進行記錄,並把該記錄定時存放在指定位置,例如數據庫中,hdfs中或者文件系統中,以便後續業務進行數據操做的回查,實現數據校驗的功能。
  12. DSG SuperSync軟件支持不一樣平臺上的Oracle數據庫之間的快速同步,包括首次數據同步和增量數據複製。DSG SuperSync採用徹底邏輯的方式進行數據同步,能夠跨越不一樣平臺;而且在數據同步過程當中,採用了DSG獨有的XF1文件格式、數據流壓縮技術和快速數據抽取和裝載技術。在配置多個同步通道的狀況下,能夠快速將現有數據庫內的數據同步到目標數據庫,並在其後將同步期間的增量數據一併複製到目標數據庫實現數據追平。目前DSG SuperSync支持主流平臺(HP/IBM/SUN/Comppaq/PC)上的Oracle各版本(Oracle8i – 10g)之間的數據複製。
  13. DSG SuperSync產品的數據複製效率,在該領域中是最高的。在kafka的投遞端,能夠採用多線程、多併發等方式進行加速投遞,現場效率能夠達到每秒2萬條的多線程

    DSG簡介
    DSG是領先的致力於數據存儲管理的專業廠商,提供優秀的大數據管理軟件和數據安全、災難恢復、數據抽取共享、數據歸檔檢索和一體化管理平臺在內的解決方案,產品包括:備份、容災、數據同步複製/抽取/共享、數據歸檔、數據稽覈等,在國內獲得了普遍的應用。目前公司擁有員工近300餘人、全國設有3個研發中心、20多個辦事處和分支機構,服務網點覆蓋全國,在中國市場擁有數百家電信、金融和政府行業的高端用戶。
    SuperSync數據同步複製軟件應用:(國內800餘家客戶,在原有強大的Oracle的實時同步複製/災備外,還能夠支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/達夢/南大Gbase等國內外各種數據庫與Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里雲間的實時同步複製,可根據kafka等格式需求定製(添加字段/數據轉換/分類等),應用在大數據共享、讀寫分離和實時災備等方面。架構

相關文章
相關標籤/搜索