Qualitis數據質量管理系統,讓異常數據無處藏身

Qualitis是微衆銀行開源的一款數據質量管理系統,用於解決業務系統運行、數據中心建設及數據治理過程當中的各類數據質量問題。
開源連接: 
git

https://github.com/WeBankFinTech/Qualitis。github




01微信

併發

Qualitis是什麼


Qualitis是一個數據質量管理系統,用於監控數據質量。它提供了一整套統一的流程來定義和檢測數據集的質量並及時報告問題。
Qualitis基於Spring Boot開發,依賴於Linkis進行數據計算,提供數據質量規則構建,數據質量規則執行,數據質量任務管理,異常數據發現保存等功能。
同時它也提供了金融級數據質量規則資源隔離,資源管控,權限隔離等企業特性,具有高併發,高性能,高可用的大數據質量管理能力。



02高併發


工具

爲何須要Qualitis?


隨着業務的發展和數據量的增長,大數據應用開發會逐步成爲經常使用的開發方式。
而因爲大數據具備如下四個特色:海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value),這就給數據的惟一性,完整性,一致性等校驗帶來了很大挑戰。
目前廣泛存在的現象是,不一樣的業務根據自身的業務特色,額外開發報表或檢查任務,對數據進行檢測,很是的費時費力。
在這種狀況下,一個可配置化,可視化,可監控,可嵌入數據處理過程,而且具備普適性,可以提供通用的特性來解決數據質量問題的數據質量管理工具就顯得尤其重要。
爲了解決以上問題,WeBank開發了Qualitis這個數據質量管理工具。
此項目已經發布到github上,而且也在持續改進中,歡迎fork並參與進來:https://github.com/WeBankFinTech/Qualitis



03性能


大數據

工做流程spa


要檢測數據質量問題,主要能夠分爲如下幾個步驟:
  1. 建立數據質量項目
  2. 創建數據質量規則
  3. 執行數據質量任務
  4. 查看數據質量任務結果

以上每一個環節的具體內容以下:
1.建立數據質量項目
數據質量項目是數據質量規則的集合,項目將數據質量規則分隔開來。

2.創建數據質量規則
建立好數據質量項目以後,能夠在項目中建立數據質量規則。
Qualitis提供兩種類型的數據質量規則建立方式:
1.基於模版進行數據質量規則的建立
2.自定義數據質量規則建立
Qualitis中預置了多個數據質量模版,用於簡化數據質量規則的建立。


3.執行數據質量任務
Qualitis依賴於Linkis計算中間件,基於Linkis實現數據質量的計算和校驗。
Qualitis在接收到數據質量任務請求時,會將規則轉換成數據質量任務,並提交到Linkis中的Spark引擎進行執行,即使是大結果集數據也能夠很快地被計算出來。


4.查看數據質量任務結果
執行完數據質量規則任務以後,能夠查看任務的結果。
Qualitis會將該任務中的全部規則提取出來,展現給用戶哪些規則沒有經過校驗,並給出具體的校驗報告,告知用戶,不符合預期的異常數據存放在哪裏。




04.net


Qualitis的核心特性


做爲一個數據質量管理系統,Qualitis提供如下四種核心特性。


1.完美的嵌入工做流

爲了可以及時進行數據質量檢測,防止數據質量管理和數據處理分離,Qualitis接入了DataSphere Studio工做流,實現了在工做流當中進行數據質量檢測。


2.靈活的規則建立機制
Qualitis提供了基於模型驅動的數據質量管理方案。
要進行數據質量檢測,首先要根據定義數據質量模型,也叫規則。
目前Qualitis提供瞭如下兩種數據質量規則的建立方式:
  1. 基於模版的數據質量規則建立
  2. 自定義數據質量規則建立

對於常規化的質量校驗需求,能夠選擇Qualitis預置的模版,並填入相應的參數,簡簡單單的就能夠完成數據質量規則的定義。目前Qualitis預置瞭如下模版:

  1. 空值校驗

  2. 邏輯校驗

  3. 枚舉校驗

  4. 身份證校驗
    ...


而對於複雜的質量校驗需求,用戶能夠根據本身的需求來自定義質量規則。

不但如此,Qualitis也提供了豐富的度量值比較方式,包括月波動,周波動,日波動,固定值等多種比較方式,可以靈活的建立規則,監測度量值的變化。

3.強大的異常數據蒐集能力

Qualitis目前提供了異常數據的蒐集功能。
每次執行數據質量任務時,不只會對度量值進行計算,還會將不符合預期的異常數據給提取出來,方便用戶查看,以便快速定位問題。

4.友好的用戶界面

Qualitis依賴於Linkis,基於Linkis作數據計算。當接收到數據質量任務請求時,會將數據規則轉換成數據質量任務並提交到Linkis中執行。
同時,Qualitis會從Linkis中搜集任務日誌信息,並進行聚合,方便用戶以及管理人員對數據質量任務進行排查。



05


Qualitis和WeDataSphere


WeDataSphere是一套一站式、金融級、開源開放大數據平臺套件,已在國內最大線上銀行WeBank,通過了數年海量嚴苛金融業務場景的打磨和驗證,表現卓越。



更多關於WeDataSphere的介紹,請訪問: https://github.com/WeBankFinTech/WeDataSphere。
Qualitis,是WeDataSphere的數據工具組件之一。
它使用了WeDataSphere核心組件數據中間件Linkis,進行數據計算,並接入了DataSphere Studio,實現了在工做流當中進行數據質量檢測。
DataSphere Studio也於同期開源。關於DataSphere Studio請訪問 https://github.com/WeBankFinTech/DataSphere Studio



06


總結


Qualitis做爲數據質量管理系統,提供了一整套統一的流程來定義和檢測數據集的質量並及時報告問題。
咱們的目標是簡化異常數據的發現,提升數據質量,方便數據的管理。
咱們從此將會不斷改進,支持對更多數據源進行數據質量校驗。
如您感興趣,歡迎訪問開源Github: https://github.com/WeBankFinTech/Qualitis
期待更多的社區力量,一塊兒推進Qualitis的成長。

本文分享自微信公衆號 - WeDataSphere(gh_273e85fce73b)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索