「Qualitis是微衆銀行開源的一款數據質量管理系統,用於解決業務系統運行、數據中心建設及數據治理過程當中的各類數據質量問題。
開源連接: git
https://github.com/WeBankFinTech/Qualitis。」github
Qualitis是什麼
Qualitis是一個數據質量管理系統,用於監控數據質量。它提供了一整套統一的流程來定義和檢測數據集的質量並及時報告問題。
Qualitis基於Spring Boot開發,依賴於Linkis進行數據計算,提供數據質量規則構建,數據質量規則執行,數據質量任務管理,異常數據發現保存等功能。
同時它也提供了金融級數據質量規則資源隔離,資源管控,權限隔離等企業特性,具有高併發,高性能,高可用的大數據質量管理能力。
爲何須要Qualitis?
隨着業務的發展和數據量的增長,大數據應用開發會逐步成爲經常使用的開發方式。
而因爲大數據具備如下四個特色:海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value),這就給數據的惟一性,完整性,一致性等校驗帶來了很大挑戰。
目前廣泛存在的現象是,不一樣的業務根據自身的業務特色,額外開發報表或檢查任務,對數據進行檢測,很是的費時費力。
在這種狀況下,一個可配置化,可視化,可監控,可嵌入數據處理過程,而且具備普適性,可以提供通用的特性來解決數據質量問題的數據質量管理工具就顯得尤其重要。
爲了解決以上問題,WeBank開發了Qualitis這個數據質量管理工具。
此項目已經發布到github上,而且也在持續改進中,歡迎fork並參與進來:https://github.com/WeBankFinTech/Qualitis
工做流程spa
-
-
-
-
1.建立數據質量項目
數據質量項目是數據質量規則的集合,項目將數據質量規則分隔開來。
2.創建數據質量規則
建立好數據質量項目以後,能夠在項目中建立數據質量規則。
Qualitis提供兩種類型的數據質量規則建立方式:
1.基於模版進行數據質量規則的建立
2.自定義數據質量規則建立
Qualitis中預置了多個數據質量模版,用於簡化數據質量規則的建立。
3.執行數據質量任務
Qualitis依賴於Linkis計算中間件,基於Linkis實現數據質量的計算和校驗。
Qualitis在接收到數據質量任務請求時,會將規則轉換成數據質量任務,並提交到Linkis中的Spark引擎進行執行,即使是大結果集數據也能夠很快地被計算出來。
4.查看數據質量任務結果
Qualitis會將該任務中的全部規則提取出來,展現給用戶哪些規則沒有經過校驗,並給出具體的校驗報告,告知用戶,不符合預期的異常數據存放在哪裏。
Qualitis的核心特性
做爲一個數據質量管理系統,Qualitis提供如下四種核心特性。
1.完美的嵌入工做流
爲了可以及時進行數據質量檢測,防止數據質量管理和數據處理分離,Qualitis接入了DataSphere Studio工做流,實現了在工做流當中進行數據質量檢測。
2.靈活的規則建立機制
Qualitis提供了基於模型驅動的數據質量管理方案。
要進行數據質量檢測,首先要根據定義數據質量模型,也叫規則。
目前Qualitis提供瞭如下兩種數據質量規則的建立方式:
-
-
對於常規化的質量校驗需求,能夠選擇Qualitis預置的模版,並填入相應的參數,簡簡單單的就能夠完成數據質量規則的定義。目前Qualitis預置瞭如下模版:
空值校驗
邏輯校驗
枚舉校驗
身份證校驗
...
而對於複雜的質量校驗需求,用戶能夠根據本身的需求來自定義質量規則。
不但如此,Qualitis也提供了豐富的度量值比較方式,包括月波動,周波動,日波動,固定值等多種比較方式,可以靈活的建立規則,監測度量值的變化。
3.強大的異常數據蒐集能力
每次執行數據質量任務時,不只會對度量值進行計算,還會將不符合預期的異常數據給提取出來,方便用戶查看,以便快速定位問題。
4.友好的用戶界面
Qualitis依賴於Linkis,基於Linkis作數據計算。當接收到數據質量任務請求時,會將數據規則轉換成數據質量任務並提交到Linkis中執行。
同時,Qualitis會從Linkis中搜集任務日誌信息,並進行聚合,方便用戶以及管理人員對數據質量任務進行排查。
Qualitis和WeDataSphere
WeDataSphere是一套一站式、金融級、開源開放大數據平臺套件,已在國內最大線上銀行WeBank,通過了數年海量嚴苛金融業務場景的打磨和驗證,表現卓越。
更多關於WeDataSphere的介紹,請訪問:
https://github.com/WeBankFinTech/WeDataSphere。
Qualitis,是WeDataSphere的數據工具組件之一。
它使用了WeDataSphere核心組件數據中間件Linkis,進行數據計算,並接入了DataSphere Studio,實現了在工做流當中進行數據質量檢測。
DataSphere Studio也於同期開源。關於DataSphere Studio請訪問
https://github.com/WeBankFinTech/DataSphere
Studio
總結
Qualitis做爲數據質量管理系統,提供了一整套統一的流程來定義和檢測數據集的質量並及時報告問題。
咱們的目標是簡化異常數據的發現,提升數據質量,方便數據的管理。
咱們從此將會不斷改進,支持對更多數據源進行數據質量校驗。
如您感興趣,歡迎訪問開源Github:
https://github.com/WeBankFinTech/Qualitis
期待更多的社區力量,一塊兒推進Qualitis的成長。