智能數據構建與管理平臺Dataphin的前世此生:緣起

簡介:阿里巴巴提出的OneData方法論幫助企業捋清了數據全生命週期的管理思路,更將其植入到產品Dataphin(智能數據構建與管理)中,經過阿里云爲企業提供服務。架構

Dataphin 智能數據構建與管理平臺運維

面向各行各業大數據建設、管理及應用訴求,一站式提供從數據接入到數據消費全鏈路的智能數據構建與管理的大數據能力,包括產品、技術和方法論等,助力打造標準統1、融會貫通、資產化、服務化、閉環自優化的智能數據體系,以驅動創新。oop

Dataphin產品直達:https://www.aliyun.com/product/dataphin大數據

困難是最好的教練

阿里巴巴從2008年開始建設自有的大數據體系,致力於構建好數據服務多樣的業務。一路上,經歷了各類各樣的困難。優化

技術陷在臨時取數不可知:阿里內部曾經經過建設專門的「臨時取數需求管理系統」,給每一個業務線分配臨時取數的時間額度,每次還沒到月底,額度已經爲零,業務同窗追着數據技術同窗加班取數的狀況時有發生......爲了改變這一局面,專門創建了「業務人員SQL技能培訓」,但願用這樣的方式讓業務人員本身掌握臨時取數技能,美其名曰「賦能」。而這背後的本質是:資源。阿里雲

數據口徑定義有差異:曾經就由於數據口徑差別,差點形成商家損失。商家在後臺看到的數據預測,顯示能夠達到活動報名要求,因而提早備貨,準備大幹一場,可是最終報名卻沒有經過,緣由是小二側的數據口徑與商家側的數據口徑不一致,小二系統評估商家的數據未達標,致使不經過。雖然最終經過協調解決了問題。但這背後的本質是:標準編碼

加班作報表,彙報還被罵加班取數是常態,一般取數花費2-3小時,而以後的核對差別則要花費巨大精力,動輒1-2天;最後的彙報環節,也會由於一些口徑差別及數據質量問題形成尷尬,甚至會出現錯誤數據致使決策失誤的狀況。這背後的本質是:質量spa

除了上述這幾個典型的場景,阿里巴巴也曾因業務增加而出現數據量爆發增加,對數據不治理無論理,意味着數據的存儲和計算成本不斷攀升。成本,也是大數據領域面臨的困難之一對象

探索中前行,實戰中沉澱帶着克服困難的決心,阿里巴巴開始了B2B業務數據建設、電商業務數據建設、阿里系業務數據建設。過程當中,邊探索、邊沉澱、邊前行,經過更體系化的數據建設提高數據質量,下降數據重構的風險,提高數據服務的效率。經歷近十年的打磨,基於實戰,阿里巴巴沉澱了OneData大數據建設的方法論(OneModel+OneID+OneService)。OneModel經過對數據體系化架構、數據元素規範定義、數據指標結構化拆解,對數據進行統一的構建及管理;OneID經過創建實體對象、對象相關的行爲數據及標籤構建方法,對企業的核心商業要素進行資產化;對數據資產進行統一的主題式數據單元構建,配置構建數據API並提供API服務,以提高數據資產消費的便捷性,提高數據資產價值。生命週期

image

克服痛點 創造領先的大數據能力

隨着全球數字化進程的加速,企業面臨着更加嚴峻的市場競爭,而數智化轉型所遇到的困境也曾是阿里巴巴最初之痛。因而,阿里雲數據中臺應運而生,與各行各業的企業在數據領域開展了合做,解決企業凸顯的數據問題:

●數據標準問題:煙囪式開發及局部業務服務支撐,致使指標同名不一樣口徑問題頻發;歷史上不一樣業務系統逐步迭代上線,相同對象屬性編碼不一致等問題突出;

數據質量問題:重複建設致使任務鏈冗長、任務繁多,計算資源緊張,數據時效性很差;口徑梳理定義的文檔沉澱到開發代碼實現之間存在脫節,數據準確性保障風險高;

需求響應問題:煙囪式開發週期長、效率低,面向應用的服務化不足,致使業務響應速度慢,業務不滿意的同時技術又以爲沒有沉澱與成長;既懂業務又懂數據的人才不足,需求理解到開發實現涉及大量溝通,服務效率較差;

成本資源問題:煙囪式開發的重複建設浪費技術資源;上線難下線更難,源系統或業務變動不能及時反映到數據上,加之數據不標準,研發維護難上加難的同時,大量無用計算和存儲形成資源浪費。

阿里巴巴提出的OneData方法論幫助企業捋清了數據全生命週期的管理思路,更將其植入到產品Dataphin(智能數據構建與管理)中,經過阿里云爲企業提供服務。 Dataphin除了大數據處理全鏈路涉及到的數據集成、開發、發佈、調度、運維能力,同時提供了數據規範定義、邏輯模型定義、代碼自動化生成、數據主題式服務能力,高效地完成好數據的構建。

Dataphin產品核心模塊

image


Dataphin自2018年問世以來,已發展出了豐滿的大圖,到目前爲止經歷了多輪大版本升級,產品核心的能力模塊清晰顯現。
一、環境適配
最底層爲Dataphin的環境適配能力。Dataphin支持不一樣的雲環境,爲不一樣規模以及不一樣部署要求的客戶提供不一樣的選擇,包括公共雲多租戶、公共雲VPC、專有云企業版及敏捷版,以及本地IDC部署。
二、引擎支持
在雲環境之上,根據不一樣的雲環境能夠支持不一樣的計算引擎。離線的計算引擎包括阿里雲MaxCompute,Hadoop生態引擎包括阿里雲E-MapReduce、CDH五、CDH六、以及即將支持的FusionInsight、CDP等。實時計算引擎支持阿里雲Blink和Flinkvvp。開源版本的Flink也即將支持。
三、數據構建
基於不一樣的雲環境和計算引擎,Dataphin提供了大數據處理全鏈路涉及的數據集成、開發、發佈、調度、運維能力,提供了數據規範定義、邏輯模型定義、代碼自動化生成、主題是查詢的數據構建能力。
四、資產
Dataphin提供了配套的資產地圖、資產血緣、資產質量管理和監控、資源成本管理和提效的資產管理能力,並提供了配置化的資產服務研發和管理能力,可將數據資產快速服務業務、反哺業務。

本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。
相關文章
相關標籤/搜索