做者 | 蔣珍波數據庫
本文是數據治理系列文章的第三篇,主要講數據治理中的重要工做:數據質量管理。架構
我將從數據質量管理的目標,質量問題產生的根源,講到如何評估數據質量,如何貫徹數據質量管理流程,最後從取與舍兩個角度談談我對質量問題的一些我的觀點。工具
數據質量管理主要解決「數據質量現狀如何,誰來改進,如何提升,怎樣考覈」的問題。大數據
爲何這篇文章的標題中有「不忘初心方得始終」這幾個字呢。由於最開始的關係型數據庫時代,作數據治理最主要的目的,就是爲了提高數據質量,讓報表、分析、應用更加準確。時至今日,雖然數據治理的範疇擴大了不少,咱們開始講數據資產管理、知識圖譜、自動化的數據治理等等概念,可是提高數據的質量,依然是數據治理最重要的目標之一。優化
爲何數據質量問題如此重要?cdn
由於數據要能發揮其價值,關鍵在於其數據的質量的高低,高質量的數據是一切數據應用的基礎。blog
若是一個組織根據劣質的數據分析業務、進行決策,那還不如沒有數據,由於經過錯誤的數據分析出的結果每每會帶來「精確的誤導」,對於任何組織來講,這種「精確誤導」都無異於一場災難。數據分析
根據統計,數據科學家和數據分析員天天有30%的時間浪費在了辨別數據是不是「壞數據」上,在數據質量不高的環境下,作數據分析可謂是戰戰兢兢。可見數據質量問題已經嚴重影響了組織業務的正常運營。經過科學的數據質量管理,持續地提高數據質量,已經成爲組織內刻不容緩的優先任務。it
作數據質量管理,首先要搞清楚數據質量問題產生的緣由。緣由有多方面,好比在技術、管理、流程方面都會碰到。但從根本上來時,數據質量問題產生的大部分緣由在於業務上,也就是管理不善。許多表面上的技術問題,深究下去,其實仍是業務問題。自動化
我在給客戶作數據治理諮詢的時候,發現不少客戶認識不到數據質量問題產生的根本緣由,侷限於只想從技術角度來解決問題,但願經過購買某個工具就能解決質量問題,這固然達不到理想的效果。通過和客戶交流以及雙方共同分析以後,大部分組織都能認識到數據質量問題產生的真正根源,從而開始從業務着手解決數據質量問題了。
從業務角度着手解決數據質量問題,重要的是創建一套科學、可行的數據質量評估標準和管理流程。
當咱們談到數據質量管理的時候,咱們必需要有一個數據質量評估的標準,有了這個標準,咱們才能知道如何評估數據的質量,才能把數據質量量化,並知道改進的方向,比較改進後的效果。
目前業內承認的數據質量的標準有:
準確性: 描述數據是否與其對應的客觀實體的特徵相一致。
完整性: 描述數據是否存在缺失記錄或缺失字段。
一致性: 描述同一實體的同一屬性的值在不一樣的系統是否一致
有效性: 描述數據是否知足用戶定義的條件或在必定的域值範圍內。
惟一性: 描述數據是否存在重複記錄。
及時性: 描述數據的產生和供應是否及時。
穩定性: 描述數據的波動是不是穩定的,是否在其有效範圍內。
以上數據質量標準只是一些通用的規則,這些標準是能夠根據數據的實際狀況和業務要求進行擴展的,如交叉表校驗等。
要提高數據質量,須要以問題數據爲切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,造成數據質量持續提高的閉環。
首先須要梳理和分析數據質量問題,摸清楚數據質量的現狀;而後針對不一樣的質量問題選擇適合的解決辦法,制定出詳細的解決方案;接着是問題的認責,追蹤方案執行的效果,監督檢查,持續優化;最後造成數據質量問題解決的知識庫,以供後來者參考。上述步驟不斷迭代,造成數據質量管理的閉環。
很顯然,要管理好數據質量,僅有工具支撐是遠遠不夠的,必需要組織架構、制度流程參與進來,作到數據的認責,數據的追責。這和我在第一篇文章《數據治理:那些年,咱們一塊兒踩過的坑》中闡述的觀點是一致的,你們能夠參考那篇文章。
企業也好,政府也好,歷來不是生活在真空之中,而是被社會牢牢地包裹。解決任何棘手的問題,都必須考慮到社會因素的影響,作適當的取捨。
第一個取捨:數據質量管理流程。前面講到的數據質量管理流程,是一個相對理想的狀態,可是不一樣的組織內部,其實施的力度都是不一樣的,以數據追責爲例:在企業內部推行還具備必定的可行性,可是在政府就很難適用。由於政府部門的大數據項目,牽頭單位不管是誰,極可能沒有相關的權限。舉個例子:你很難想像市經信委去跟市政府辦公廳進行數據質量的問責。這與數據治理的建設方在整個大的組織體系中的話語權有很大的關係。這就是咱們作數據治理必須接受的現實。遇到這種問題,咱們只能迂迴地作些事情,儘可能彌補某個環節缺失帶來的不利影響,好比和數據提供方一塊兒創建起數據清洗的規則,對來源數據作清洗,儘可能達到可用的標準。
第二個取捨:不一樣時間維度上的數據採起不一樣的處理方式。從時間維度上劃分,數據主要有三類:將來數據、當前數據、歷史數據。在解決不一樣種類的數據質量問題時,須要考慮取捨之道,採起不一樣的處理方式。