太平洋保險集團
「家園項目」大數據平臺DSG應用(oracle&kafka)mysql
項目背景
根據太平洋保險集團的IT建設規劃,在2017年年末,須要完成「一個太保,共同的家園」項目(簡稱家園項目),旨在給客戶提供更加便攜、全面的服務,經過一個家園平臺,就可以完成全部的服務。
衆所周知,太平洋保險的業務範圍很是普遍,囊括了產險、壽險、車險等業務,同時,一個險種又由多個系統共同提供服務。如今要在一個平臺上完成這些服務,數據的匯聚、集中、轉換就成了整個項目的核心與難點。sql
項目需求
根據太保家園項目的最終目標,在一期建設中,須要將太平洋保險集團下屬的壽險,產險,車險等30多個核心繫統數據,經過實時同步複製的方式,統一集中到大數據平臺。其中涉及數據的轉換,標化,清洗,去重等一系列過程,具體需求以下:
一、 須要將核心數據從30多個系統同步到大數據平臺的kafka組件。
二、 確保數據複製的實時性(秒級)和數據的準確性
三、 複製的數據須要加上時間,操做類型等標籤,便於後端應用識別
四、 以生產環境的dg庫做爲數據的匯聚源端,減輕對生產庫的影響
五、 入kafka的數據格式可靈活配置,以便更好的適配後端應用
六、 須要具有數據操做統計和數據比對功能,便於覈對數據的準確性數據庫
項目難點
在實現整個家園項目的數據匯聚中,根據項目需求和實際的生產環境狀況,要完成整個數據同步,主要存在如下一些難點:json
數據準確性要求高。家園平臺承載着全部的查詢、部分業務辦理,若是數據不許確,必然引發業務邏輯混亂,沒法爲用戶提供服務等問題。後端
解決方案
在此方案中,採用DSG SuperSync產品完成oracle到kafka的數據複製,方案架構如上圖所示。在太保的系統架構中,生產中心位於上海,災備中心位於成都。全部核心系統在本地生產中心均建有一級DG庫,在成都災備中心建有二級DG庫。同時,這次項目的大數據中心也位於成都災備中心。基於這種架構考慮,把數據量較大的全量同步放在成都的二級DG庫上,這樣能夠節省上海到成都的帶寬資源,同時提升同步效率。同時增量同步放在上海本地的一級DG庫,以知足實時同步的要求。安全
方案優點
該方案具備如下優點:網絡
DSG SuperSync產品的數據複製效率,在該領域中是最高的。在kafka的投遞端,能夠採用多線程、多併發等方式進行加速投遞,現場效率能夠達到每秒2萬條的多線程
DSG簡介
DSG是領先的致力於數據存儲管理的專業廠商,提供優秀的大數據管理軟件和數據安全、災難恢復、數據抽取共享、數據歸檔檢索和一體化管理平臺在內的解決方案,產品包括:備份、容災、數據同步複製/抽取/共享、數據歸檔、數據稽覈等,在國內獲得了普遍的應用。目前公司擁有員工近300餘人、全國設有3個研發中心、20多個辦事處和分支機構,服務網點覆蓋全國,在中國市場擁有數百家電信、金融和政府行業的高端用戶。
SuperSync數據同步複製軟件應用:(國內800餘家客戶,在原有強大的Oracle的實時同步複製/災備外,還能夠支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/達夢/南大Gbase等國內外各種數據庫與Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里雲間的實時同步複製,可根據kafka等格式需求定製(添加字段/數據轉換/分類等),應用在大數據共享、讀寫分離和實時災備等方面。架構