袋鼠雲數棧3.0版本開始實現商業化以來,已經應用到教育行業、政府行業、旅遊行業的浙江大學、山西商務廳、中金易雲、京東方、杭州互聯網法院、西溪國家溼地公園、西湖風景名勝區、國家電網、雲南中煙、常州旅遊商貿高等職業技術學校等衆多客戶,幫助客戶搭建和升級大數據計算開發平臺,管理大規模數據資源,用工具化和可視化的方式高效進行數據治理,對數據資產進行創新應用,在複雜多元的業務場景中發揮數據價值。數據庫
在客戶實際使用數棧的過程當中,也有一些用戶對數棧的功能、使用、價值提出了很多疑問,袋鼠雲數棧產品團隊將這些問題都一一認真收集下來,並收錄在「棧問棧答」系列專欄裏,和全部的數棧用戶分享,敬請期待。函數
棧問棧答 · 數據質量工具
使用袋鼠雲數棧的某教育行業客戶,在以前的信息化過程當中建設了多個系統,已經意識到自身數據孤立的現狀,面對TB級的數據量,須要更高效的方式進行數據治理和分析,爲業務方提供高質量數據。測試
其實,數據治理不只僅是教育行業用戶的痛點,一樣也是其餘行業進行大數據平臺建設和數據應用,最亟需解決的難題。大數據
針對這一問題,袋鼠雲數棧基於十年實踐經驗沉澱的多種校驗規則,打造了完整的全流程數據質量閉環管理機制,同時支持數據遷移&邏輯變動的雙表逐行校驗場景。spa
相似如下問題,袋鼠雲數棧都能通通搞定!生命週期
A:有不少ETL任務,任務運行正常,因爲數據源有變更,或開發修改了代碼,測試不充分,致使數據常常出問題。最後仍是業務方發現後,才反饋給開發排查緣由。圖片
使用數棧資源
可對關鍵任務配置數據質量校驗規則,任務跑完產出數據,並通過質量校驗經過後,才流入到下游,給到數據需求方。開發
B:開發人員維護ETL任務,因爲業務規則的變動或者新需求的迭代,須要常常修改ETL任務邏輯。每次修改後比對數據,耗費大量的時間。
使用數棧
經過數據質量產品的雙表校驗功能,自動比對修改前,修改後的數據,輸出比對結果,無需人工干預。
C:須要把在某平臺運行的任務遷移到另一個平臺,同時保證遷移先後數據的一致性。以往則須要人工或寫程序進行校驗,真的是費時費力。
使用數棧
經過數據質量產品的雙表校驗功能,自動比對遷移先後的兩個平臺的數據,輸出比對結果。
Vol.1 棧問棧答
棧問:在數據抽取的過程當中,數棧可否對數據的正確性進行判斷?
棧答:對這個問題,數棧能夠提供2個解決方法:一種是在數據同步環節就進行髒數據相關的配置;還有一種是在數據加工全流程環節進行數據質量監控的配置;
也就是說,從數據的同步到整個數據加工全流程,袋鼠雲數棧都很是重視數據質量和數據治理,保障用戶數字化建設過程數據資產的高質量。
解法1、髒數據配置
在數據同步執行的過程當中可能會出現因主鍵衝突、格式轉換錯誤等各類緣由形成部分數據沒法正常寫入,不能被正常寫入的數據即被視爲「髒數據」。
髒數據配置在數據同步配置模塊中,在數據同步任務的通道控制步驟中,可配置是否須要記錄髒數據,並可指定存儲髒數據的表名、生命週期。
袋鼠雲數棧-髒數據配置模塊
棧問:如何查看髒數據,對數據質量作到心中有數?
棧答:在數棧-任務管理-髒數據管理模塊中能夠查看髒數據的產生趨勢、產生髒數據最多的任務,以及每一張產生髒數據表的狀況:
數棧-髒數據查看
髒數據產生趨勢
選中某個任務後,能夠查看此任務在最近一段時間產生髒數據的數量,支持最近3天、7天、30天、60天的數據查看。
髒數據產生TOP30任務
經過觀察產生髒數據數量較大的任務,能夠針對性的排查此任務的配置信息、源數據庫的數據質量等問題,及時解決問題。
解法2、數據質量配置
做爲數據資產管理的一部分,數據質量的保障與提高是一個大數據平臺所需的必備功能。一般含義的數據質量包括及時性、完整性、一致性、有效性、準確性。
數據質量模塊能夠根據不一樣的業務場景,針對數據表提供錶行數、空值數、空值率、重複數、重複率等二十餘種統計函數,校驗方法支持固定值檢測、1天波動檢測、7天波動值變化檢測、30天波動值檢測、7天平均波動檢測、30天平均波動檢測,告警閥值支持靈活的自定義。
棧問:如何使用數棧建立質量監控任務?
棧答:建立質量監控任務分爲如下3個步驟:
數棧-建立數據質量監控任務
Step1:選擇數據源,選擇須要校驗的表
點擊頂部菜單的規則配置-新建監控規則,進入配置頁面,選擇須要進行檢測的數據表(表名爲 muyun_test),點擊下一步。
Step2:針對全表、每一個字段配置校驗規則
進入監控規則步驟,點擊添加字段規則,並選中id字段,統計函數選擇空值數,校驗方法爲固定值,閾值配置爲=0,點擊保存,並點擊下一步。
Step3:調度週期配置
選擇調度週期爲天,其餘參數無需修改,點擊新建,便可完成配置。
棧問:咱們數據庫一部分用的是Oracle,一部分是MySQL,大家數棧支持哪些數據源的校驗和數據質量管理?
棧答:數棧數據質量模塊支持MySQL,Oracle,SQL Server,
PostgreSQL,Hive,MaxCompute等多種數據源,知足大多數場景下的質量校驗需求。
棧問:數棧的數據校驗顆粒度到什麼級別?
棧答:基於阿里數據生產的實戰經驗,數棧內置20餘種校驗規則,支持表級、字段級2類規則,並提供字段級、表級校驗報告,具有歷史數據統計功能,輔助用戶定位數據質量的問題根源。