做者介紹:TJ,唐建法,Tapdata 鈦鉑數據 CTO,MongoDB中文社區主席,原MongoDB大中華區首席架構師,極客時間MongoDB視頻課程講師。
咱們講完了這個中臺的一個架構和它的邏輯模型,若是咱們要來考慮實施數據中臺有哪些技術模塊要考量。還回到剛纔那張圖,首先中臺必須是基於一個數據統一平臺的,那數據統一的時候,其實剛纔沒有講到的,還須要把數據同步和匯聚過來。因此有一部分的工做你是少不了的,若是你沒有作過這種中臺甚至統一平臺的話,你必須有一個ETL平臺來把你的來自各個來源的數據抽取過來,抽到你的數據統一平臺上。
數據統一平臺你用什麼樣的解決方案?那是另一個問題,回頭咱們會討論。那進到裏面了之後,咱們在上面才構建咱們的資產體系,這個是須要用到中臺相應的一些好比數據治理的模塊能力來作這個事情。那最上面層就是一套服務化能力,要把它作成API server 的方式,把這個數據快速的能夠交付出去。
基於上述對於數據中臺的理解和定義,咱們列出了數據中臺所應該具有的技術需求。主要是分爲:
數據存儲系統、
數據同步匯聚工具、
數據治理和開發、
數據交換和發佈、數據管理能力五大模塊。
以下表:
模 塊 | 關鍵能力 | 備 注 |
數據存儲系統 | 橫向擴展能力 | 中臺須要具備可以收納企業全部業務系統數據的能力 |
靈活數據模型 | 中臺數據模型多爲整合多個源系統, 而且須要不斷支撐新型需求, 需具備靈活建模的能力 | |
高併發低延遲響應能力 | 中臺支持交互式應用, 並有可能直接穿透到客戶, 需提供毫秒級數據訪問能力及高鏈接數能力 | |
同城高可用及異地備份 | 中臺支持的爲前端業務系統, 必須具備 24×7,99.9%的高可用能力, 以及異地熱備的能力 | |
數據安全 | 存儲加密, 傳輸加密, 字段加密, LDAP 認證, 鑑權, 稽覈 | |
數據同步匯聚工具 | 批量同步及導入能力 | 可以把已有業務數據一次性或按期方式導入到中臺 |
數據庫實時同步能力 | 以 CDC 方式, 在3~5秒延遲內將數據從源生產數據庫同步中臺存儲系統, 保證最佳用戶體驗 | |
數據庫及其餘數據源支持 | DB2, Oracle, PG, SQLServer, DW, Hadoop, CSV, Legacy 及 API 接口等等 | |
斷電續斷傳機制 | 系統中斷後能夠從中斷繼續, 不會丟失數據更新 | |
異構數據模型整合能力 | 支持不一樣源系統不一樣結構數據模型在同步過程當中同時進行模型轉換, 如轉換 JSON 格式 | |
數據治理及開發 | 數據目錄及元數據管理 | 需提供一個可自定義數據目錄的管理能力, 有效組織中臺內衆多的數據類型。支持修改描述, 搜尋等功能 |
數據建模 | 支持在中臺內進行按照業務需求動態建模, 包括新建模型, 多表合併或關聯合並 | |
數據開發 | 支持在中臺內進行數據的一些處理及計算, 如轉換欄位類型, 欄位加強, 數據合併等 | |
數據質量管理 | 支持定義數據規則並對違規數據進行統計, 檢查及修訂等 | |
數據匹配去重 | 中臺需提供惟一數據 ID 能力。來自不一樣源系統的同一個數據實體 (如客戶) 需可以進行匹配及去重 | |
數據交換及發佈 | 無代碼 REST API 快速發佈能力 | 中臺的數據模型須要可以即時的以 API 方式發佈出去 |
REST API 訂製能力 | 可按照需求進行級及列級的過濾 | |
API 文檔及測試 | 提供工具讓用戶瞭解 API 的使用方式並進行測試 | |
SQL 計算接口 | 容許讓 BI 及報表用戶以 SQL 方式來查詢數據 | |
橫向擴展及高可用 | 可以隨着使用量的增長和進行能力擴展 | |
大數據計算接口 | 提供 Hadoop/Spark 數據計算框架的對接能力, 可以直接與其對接提供數據進行數據運算並收集計算結果 | |
流計算接口 | 提供 Kafka 或相似的流處理計算框架的對接能力, 可以向 kafka 以 producer 方式提供數據或者以 consumer 方式消費數據 | |
系統管理能力 | 可視化任務設計 | 經過 UI 進行數據開發任務的設計及調整 |
任務調度及監控 | 提供任務調度及任務運行情況實時監控, 瞭解數據同步或者處理進度 | |
日誌管理 | 系統運行日誌監控及搜尋 | |
告警機制 | 異常事件如任務中斷即時報警 | |
用戶權限管理 | 建立、修改中臺管理用戶, 角色及權限配置等 | |
數據備份及恢復 | 數據的即時備份及指定時間點恢復能力 | |
集羣管理及監控 | 中臺系統集羣的部署管理, 運行情況監控等。 |
我按照各每一個系統大概列了一些數據中臺比較核心須要的能力,當你們在採用某一種系統的時候,某一種方案的時候,能夠對照一下。也不是每個大家都會關注,可是這是從咱們經驗中常常用獲得的。好比做爲數據平臺存儲系統的話,你第一個確定是要橫向擴展。爲何?你作的是一個企業級的數據平臺,你要把全部的原系統有可能真的作到其極致的話,可能所有把他拿過來,因此你必須得有一個橫向擴展能力。不能想今天個人數據這個數據在MySQL能夠放得下了,或者是一個Oracle能夠放得下了,但你要考慮到明年、後年,甚至是三年、五年之後,由於這個架構放上去之後是一時半會不會動的,那靈活的數據模型,這些也是咱們的經驗,咱們要這個是作一個數據匯聚。每每你的一套同一個客戶系統,同一個客戶模型會來自於多個不一樣的系統。這個時候,你有一種靈活的模型和相對的一種比較死板模型的話,你會發現這種靈活模型會比較容易的把數據整合進來,可以接受不一樣的一些字段的變化,也能夠方便的把它合併到一個模式裏面。
高併發低延遲就是咱們這個中臺最終不只僅是支撐分析,還要支撐前面的業務,因此必須得有這種潛在的直接穿透到前端,例如咱們的移動端用戶,或者會有大量的這種高併發。做爲這個核心數據,高可用、備份、安全都是不用說的了。這是關於存儲系統數據平臺的一些最基本的一些要素,因此你們考慮的時候,能夠從這方面來想這個問題。
其餘還有涉及到就是同步工具。批量導入可否實時同步?批量導入通常都有,可是可以實時同步,好比說由於咱們要作的事情真的是好比說咱們在一家銀行作的須要這邊刷卡,刷完卡,這個數據在三秒以內直接要進到咱們的中臺裏面,由於上面有一些業務場景會給予中臺來作一些推送。因此這個時候實時同步的能力是很是關鍵的,而後還有一些斷點續傳或者是全部的數據源的支持,這個就是比較常見的這種同步工具的一些需求了。
治理開發就是咱們剛纔講的不少就是說怎麼樣之間數據體系,你必須得有一系列的能力。數據目錄、原數據管理、建模、開發、質量管理等等,匹配去重都是,須要在考察的時候,看他們中臺有沒有這個能力來作這些事情。
數據交換的發佈就是咱們的data API。咱們說這是一個數據開發平臺,咱們面對的使用者,好比大數據團隊也好,或者數據管理團隊也好或者DBA也好,每每不會是開發人員來作這事情。這更像是一個比較中央化的數據平臺團隊,因此他們關注的多是一些管理能力,無代碼能力就不用讓他們寫不少代碼,因此這個API可否很方便、很快速地按照需求來接通到爲前端作服務,這是很關鍵的。固然,接口的多樣性也是很是關鍵。SQL方式,大數據、流數據,這些接口都按照咱們的需求考慮是否須要。
最後一點就是系統管理能力,就是常見的就是這種可視化。由於這裏面作不少的事情要有一些相應的任務管理、任務設計、監控、告警啊等等,權限管理,通常的系統都會有這種需求。
Tapdata 鈦鉑數據
-
新一代實時數據融合平臺產品和解決方案提供商
-
行業領先的同異構數據庫實時同步解決方案提供商
聯繫咱們獲取企業版 Demo:team@tapdata.io
當即體驗線上異構數據庫同步服務:cloud.tapdata.net