摘要: 螞蟻金服的數據治理之道。
今年年初,螞蟻金服ATEC城市峯會在上海舉辦。金融智能專場分論壇上,螞蟻金服數據平臺部高級數據技術專家李俊華作了主題爲《螞蟻金服數據治理之數據質量治理實踐》的精彩分享。算法
演講中,李俊華介紹了螞蟻金服數據架構體系的免疫系統——數據質量治理體系,此外還着重介紹了數據質量實施的相關內容,以及螞蟻的數據質量治理實踐與所面對的實際挑戰。數據庫
![螞蟻金服數據平臺部高級數據技術專家李俊華
](https://upload-images.jianshu...架構
近年來,螞蟻金服不斷在數據架構上進行升級改造,其目的在於解決螞蟻所面臨的數據物理孤島問題。現在,螞蟻以及整個阿里巴巴集團的底座都統一到了同一個平臺上,這樣當實現第五代數據架構體系升級時,就下降了一站式研發的總體門檻,並使得螞蟻金服的全部工程師均可以在平臺上輕鬆玩轉數據。現在,在螞蟻的數據架構中已經可以很好地解決數據孤島問題,而現在在數據治理體系中所須要關注的就是邏輯的孤島。機器學習
在對數據治理展開論述以前,先談一談數據價值。性能
以前的狀況是,當數據首先須要通過專門團隊負責處理,刪除沒有價值的數據,負責上線或者下線數據。可是,對於數據價值的判斷也是一個很是使人頭疼的問題,大部分的數據只會上線不會下線,這樣就形成了大量沒有價值的數據的堆積。而現在,螞蟻不只關心下線沒有價值的數據,同時也側重數據資產的價值最大化。學習
在數據價值方面,螞蟻有一套完整的數據資產等級以及數據資產的易用模型,這樣就可以驅動自身充分利用數據資產,來創造更多的價值。可是若是這些數據被使用了,可是質量卻很低,這樣就會使得數據資產的價值大打折扣。測試
數據質量產生分析spa
接下來將重點介紹螞蟻金服在數據治理質量領域的實踐思路和方案,並與你們分享兩個案例。以下圖所示的是抽象數據抽取的全流程圖。設計
當某個業務同窗錄入數據的時候出現一點錯誤,就會形成數據的質量問題,好比把客戶的行業信息填錯或者打錯了一個字都會形成數據質量問題,而這樣的問題很容易出現。接口
在基於傳統數據庫資產開發數據應用的時候,基本都是從數據源端產數據過來,通過加工、分析再將數據發送出去,也就是「從業務中來,最後回到業務中去」。如今的方案與以前存在很大區別,之前作數據處理時,從數據生產的採集數據來,加工以後就給出去了,而現在螞蟻不少數據應用將數據處理以後還會回到數據系統中。好比芝麻信用分的計算中存在不少你們看不到的場景,這些數據處理以後還會回到系統之中,而這個過程當中每一個環節均可能存在數據質量問題。
在下圖中的左側展現了螞蟻的業務形態。
現在,螞蟻的業務場景已經再也不僅限於統計分析,而在螞蟻的芝麻分、花唄、借唄以及「310」放款的背後都是數據在進行支撐並驅動着其發展。今天,螞蟻的業務形態成爲了「技術+數據+算法」三者的融合來追求價值最大化。與此同時,數據質量治理也存在着諸多挑戰,它們來自於業務方面、數據方面、用戶方面。
數據質量治理思路
從事金融業務的同窗每每深有感觸,互聯網金融時代業務的生命週期縮短了不少,而且變化也很是頻繁,相比於本來銀行的節奏顯得很是快。
此外,目前不管是螞蟻金服仍是阿里巴巴都在談「數據業務化、業務數據化」,數據和業務一同共同發展和前進,而且已經進入了發展的深水區。以前的幾年,螞蟻在業務上偏向於「T+1」,而現在,原來的架構體系不足以支撐螞蟻將來繼續發展以及高時效性的訴求。同時,現在螞蟻的數據體量很大,而數據業務也驅動螞蟻的整我的才體系的升級。如今,除了自己作數據算法研發的同窗以外,其餘的技術同窗也都會在平臺上使用數據,這些同窗可能對於數據的認知不一樣,那麼在數據驅動下真正保證數據質量就顯得異常重要。
那麼如何實現數據質量治理呢?
首先,須要有一套明確的組織,這是持續建設企業文化的土壤,而數據質量治理文化的建設必定是一個肯定的、有組織的而且須要長期持續推動的事情。在組織保障和質量文化的基礎之上,螞蟻還側重了研發流和數據流。在金融領域,研發流的管控更嚴格,也更嚴謹。而對於現在的互聯網金融而言,也須要進行強管控,這是由於業務形態決定了研發週期很短,如今螞蟻在研發流作了強管控,在一站式數據研發平臺上,使用了分級管控。需求提出以後就會被等級管理,而且進行打標,進而走入不一樣流程。此外,研發流上還側重分級管控,在同一套標準上定義級別,拉平不一樣的研發流。對於數據流而言,當一個應用發佈到生產環境以後,大部分精力花費在數據流中,天天須要從生產環境將數據採集處處理平臺,而後運行算法計算,以後將數據返回到生產環境中,走這樣的閉環。
現在,螞蟻在數據流鏈路上作了不少事情,也建設了不少能力。對於數據流而言,若是源頭被污染了,若是不能控制其污染到下游,那麼越往下修復成本就越大。
基於以上的數據質量治理思路,螞蟻金服作了不少有意思的東西,在數據平臺運行時會將整個體系監控起來,若是出現數據質量故障,就可以及時進行修復。
此外,從研發到生產的各個環節,螞蟻都作了大量的工做,這是由於基於平臺進行數據研發的同窗不少,須要儘可能下降使用門檻。對於全數據流而言,主要建設了四大能力,包括感知能力、識別能力、智愈能力和運營能力。
平臺須要可以感知發佈任務的故障問題以及數據質量問題,此外,平臺須要可以識別出潛在風險,由於須要很是及時地瞭解被破壞的數據。當風險被識別出來以後,就須要智愈能力,之因此使用「智」,是由於本來數據處理任務每每是離線的,可能從凌晨開始到早上8點鐘左右屬於數據生產高峯,在這段時間裏會有人員參與質量保障任務。而智愈能力就但願經過AI算法來配合數據處理工做,使得感知能力疊加算法能力,可以對於數據感染進行自愈。
最後是運營能力,數據質量不會被展示在前臺,若是數據質量足夠好,徹底能夠實現無感知,使用者不用再擔憂數據能不能用,也不會出現敢不敢用的疑惑,所以數據質量對於運營而言也很是重要。其實,數據質量問題既不只屬於研發也不只屬於業務,而是須要全員參與,共同來解決,這就是數據治理的思路。
螞蟻數據質量治理架構
以下圖所示的是螞蟻金服的數據質量治理架構體系。
在系統層,按照上述所談到的具體思路,研發階段主要集中在數據測試、發佈管控以及變動管理等方面的建設,這裏着重說起變動問題,數據的變動不只僅設計到系統層的變動管理,也會涉及到在線系統的相互打通。現在,在線數據源的變動,也會使得數據運營發生變動,更可能會致使數據運營的數據質量問題。
在線研發部分爲數據運營系統提供了一些相關的接口,可以通知使用者線上的哪些變動會影響到數據運營。對於發佈管控能力而言,螞蟻投入了大量精力進行研發。目前在螞蟻已經沒有專職負責數據測試的同窗,基本上所有都是全棧工程師,因此對於研發而言可能管控不是很是強,但卻實現了強大的發佈管控能力,將與經驗、規範、性能以及質量相關的檢測所有在這部分執行。
在生產階段,則主要側重於質量監控、應急演練以及質量治理這三個系統能力。質量監控告警系統能力在大部分的數據系統架構中應該都有,其功能相似於汽車的剎車功能,所以確定是存在的。而螞蟻卻作了一件頗有意思的事情——數據攻防演練,工程師會人爲創造故障,而後測試系統可否在短期內發現故障並進行有效修復,這部分也是目前螞蟻在重點進行建設的能力。在質量治理部分,會根據不一樣應用的級別,發佈到生產環境以後進行按期巡檢,分析是否會影響數據質量。總之,對於數據質量架構體系的系統層而言,不只原數據很是重要,現在更是結合機器學習來自動配置一些相關策略。
數據質量治理方案
以下圖所示的是螞蟻金服在實踐中的事前、事中、過後的數據質量質量方案。
總體而言,事前包括需求、研發、和預發三個階段,而現在螞蟻在事前能夠作到的可管控、可仿真、可灰度。在事中,監控問題是重點建設的,出現問題不可怕,可是須要實現自主發現問題。而爲了使得防護能力更強,螞蟻實現了主動的攻擊演練,而正是經過攻防演練,幫助螞蟻發現了自身不少薄弱的地方。除此以外,還在事中提供了強大的應急能力,某些事件將會觸發應急預案,在這部分,保證數據質量其實就是把不肯定的數據風險變成肯定的東西。在過後,數據質量也很是重要,過後須要經過有效的指標和管控手段來進行審計和度量,以此發現整個鏈路上不完善的地方並持續完善。
數據質量治理案例
最後爲你們分享螞蟻金服在數據質量治理方面的兩個案例:
案例1:在螞蟻數據治理架構體系下的發佈環節,實現了一個發佈強管控的流程。任何腳本在提交時都須要通過檢測,而後發佈到線上,並再進行一次檢測。
案例2:數據治理涉及到整個鏈路,而針對不一樣鏈路上的數據版本,數據採集主要是將數據從一端搬運到另外一端,不存在加工的過程,此時能夠人爲注入一些故障,分析數據質量治理體系可否發現問題並做出修改,所以這就產生了「攻」與「防」雙方。數據加工處理又另一套體系結構,其涉及邏輯的加工,更多地須要考慮注入怎樣的故障,須要面臨什麼。現在,在螞蟻真正落地數據質量治理體系的時候,在攻防演練環節投入了大量精力。
本文爲雲棲社區原創內容,未經容許不得轉載。