做者:王騰 [ 更多內容詳見數據中臺官網 https://dp.alibaba.com ]
業務數據存儲是業務系統最基本的構成,構建數據中臺,就是要將這些數據集中起來放到一個有更強算力的地方集中處理,因此對於數據集成的能力是構建數據中臺最基本要求;
從存儲的發展歷程來看,因爲不一樣的業務場景需求,帶來了數據存儲的不一樣發展路徑,在企業發展中隨着業務規模的變化,也會選擇不一樣的存儲來支撐,因此每一個企業必定會存在異構存儲,如何將多源異構存儲中的數據集成起來是企業作數據中臺須要面臨的一個巨大問題;
固然,目前行業內有不少人採用一些開源技術組件來實現,好比GitHub上的DataX、HData等,可是因爲技術組件的易用性較弱,對於分析師和模型師而言,學習效率和使用便捷度還有待提升;所以集中式、界面化的工具尤其重要;
不久前咱們就接觸過一個客戶,他們是一家有着大概十多年發展歷史的零售企業,有線上渠道也有線下自營店,企業發展一直都比較重視信息化,因此基於Oracle的ERP系統、基於MySQL的APP應用、基於ES的搜索系統、基於HBase的數據服務系統,還有第三方提供的POS服務,每個月同步帳單;經年累月,系統變得比較複雜,並且沒有當下流行的業務中臺架構;
在和客戶的業務方、IT部門溝經過程中瞭解到,目前最首要的需求是但願能夠把這些數據統一管理起來,而且在業務上可以發揮一些價值。基於客戶訴求和基礎信息的瞭解,目前雖然遠期的藍圖不是很清楚,可是短時間內對於數據建設的方向是明確的,先完成數據的集成工做,而後再挖掘數據業務價值,固然集成的數據內容要與業務價值考量關聯,不然盲目集成,也只是轉存了一份數據而已;
基於這些判斷,系統梳理了下客戶的系統以及使用的存儲;
梳理結果以下:
前端
總體IT信息以下:
信息系統:六大模塊(前端業務APP、營銷工具、運營平臺、供應鏈平臺、內部管理平臺、OA系統)
存儲類型:
關係型數據庫:MySQL、Oracle、PostgreSQL
無結構數據存儲:FTP、日誌文件、ElasticSearch、線下CSV(Excel文件)
NoSQL存儲:HBase
集成目標:
MaxCompute(已採購)
集成工具
公共雲Dataphin
根據對系統存儲和工具的梳理,數據流形式以下:
數據庫
在整個集成數據流設計中,主要使用的是Dataphin產品,目前存儲數據梳理中用到的類型均可以支撐到,更重要是界面化操做,入門門檻比較低,維護和管理起來比較簡單,配置下數據源,設置下數據歷來源到目標的mapping關係便可。架構
Step 1. 新建數據源
app
Step 2. 配置映射關係
工具
Step 3. 發佈生產環境
性能
這樣一個數據同步任務就建立好,客戶這邊大概有12個存儲源約200個數據表作上雲,大概2天的時間就完成了,所以,工具仍是很重要的!
咱們在項目中所使用的數據集成產品Dataphin就是一個很是方便的工具。
Dataphin數據同步支撐了數據上雲最基礎的能力,只有數據上雲纔有可能談論數據中臺建設和數字化轉型;
Dataphin數據同步定位於數據上雲的管道,集成多源異構存儲中的數據,構建數據中臺建設的基礎原料;在數據同步的設計中,首先將多類型存儲介質的元數據進行了標準化,基於這種標準化實現了前端配置的一致體驗,避免填寫大量的JSON文件進行同步配置的定義,簡化配置操做,以提高工程師開發階段的體驗;同時,兼顧客戶最終價值需求,即數據可以穩定、高效地完成傳輸,實現上雲,所以數據同步設計的過程當中也是很是關注數據同步的性能指標;
目前咱們已經實現12種來源存儲類型以及14種目標存儲類型的支持;覆蓋了當前客戶使用的大多數數據源類型;同時,因爲採用插件式的設計方法,對於異構數據源提供了快速擴展的能力;
學習
按照存儲類型劃分,保持與DataX定義的標準一致:大數據
結尾: [ 更多內容詳見數據中臺官網 https://dp.alibaba.com ]
阿里巴巴數據中臺團隊,致力於輸出阿里雲數據智能的最佳實踐,助力每一個企業建設本身的數據中臺,進而共同實現新時代下的智能商業!
阿里巴巴數據中臺解決方案,核心產品:
Dataphin,以阿里巴巴大數據核心方法論OneData爲內核驅動,提供一站式數據構建與管理能力;
Quick BI,集阿里巴巴數據分析經驗沉澱,提供一站式數據分析與展示能力;
Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人羣圈選、洞察及營銷投放能力,鏈接阿里巴巴商業,實現用戶增加。
歡迎志同道合者一塊兒成長!ui
原文連接阿里雲
本文爲雲棲社區原創內容,未經容許不得轉載。