技術16期:如何更好的保證數據質量【大數據篇】

數據質量管理不單純是一個概念,也不單純是一項技術、也不單純是一個系統,更不單純是一套管理流程,數據質量管理是一個集方法論、技術、業務和管理爲一體的解決方案。

 

通過有效的數據質量控制手段,進行數據的管理和控制,消除數據質量問題進而提升企業數據變現的能力,一切業務、技術和管理活動都圍繞這個目標和開展。

 

 

數據質量問題

 

數據質量問題通常會存在以下幾個方面的問題,通常對數據質量的評估也是圍繞這幾個維度進行的。

 

 

  • 數據準確性:用於分析和識別無效或者不準確的數據,不可靠的數據可能會導致嚴重的問題。

 

 

  • 數據唯一性:用於識別和度量重複數據、冗餘數據,重複數據是導致業務無法協同、流程無法追溯的重要因素,是需要解決的最基本的數據問題。

 

 

  • 數據完整性:唯一性約束不完整、參照不完整;數據條目不完整、數據記錄丟失或不可用;不完整的數據所能借鑑的價值就會大大降低,也是數據質量問題最爲基礎和常見的問題。

 

 

  • 數據一致性:多源數據的數據模型不一致,例如:命名不一致、數據結構不一致、約束規則不一致。數據實體不一致,例如:數據編碼不一致、命名及含義不一致、分類層次不一致、生命週期不一致……。相同的數據有多個副本的情況下的數據不一致、數據內容衝突的問題。

 

 

  • 數據關聯性:數據關聯性問題是指存在數據關聯的數據關係缺失或錯誤,例如主外鍵關係、索引關係等。會直接影響數據分析的結果。

 

 

  • 數據及時性:能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關係,是影響業務處理和管理效率的關鍵指標。

 

 

 

數據質量問題的根因分析

 

影響數據質量的原因包括技術、業務、管理三個方面。

 

現在從這三方面分析下產生數據質量問題具體因素。

 

 

1

技術層面

 

 

             

  • 數據模型設計數據庫表結構、約束條件、校驗規則的設計開發不合理,造成數據錄入無法校驗或校驗不當,引起數據重複、不完整、不準確。

 

  • 數據源質量控制源系統數據質量本身不可控,從生產環境中採集的數據存在重複、不完整、不準確等問題。而在進行數據採集時是否對數據做清洗處理、清洗規則是否符合業務需求。

 

  • 數據採集過程採集點、採集頻率、採集內容、映射關係等採集參數和流程設置的不正確,數據採集接口效率低,導致的數據採集失敗、數據丟失、數據映射和轉換失敗。

 

  • 數據傳輸過程數據接口本身存在問題、數據接口參數配置錯誤、網絡不可靠等都會造成數據傳輸過程中的發生數據質量問題。

 

  • 數據裝載過程:數據清洗規則、數據轉換規則、數據裝載規則配置有問題。

 

  • 數據存儲質量數據存儲設計不合理,數據的存儲能力有限,人爲後臺調整數據,引起的數據丟失、數據無效、數據失真、記錄重複。

 

2

業務層面

 

 

  • 業務需求不清晰:數據的業務描述、業務規則不清晰,導致技術無法構建出合理、正確的數據模型。

 

  • 業務需求的變更這個問題其實是對數據質量影響非常大的,需求一變,數據模型設計、數據錄入、數據採集、數據傳輸、數據裝載、數據存儲等環節都會受到影響,稍有不慎就會導致數據質量問題的發生。

 

  • 業務端數據輸入不規範數據錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。

 

3

管理層面

 

  • 數據輸入規範不統一不同的業務部門、不同的時間、甚至在處理相同業務的時候,由於數據輸入規範不同,造成數據衝突或矛盾。

 

  • 缺乏有效的數據質量問題處理機制數據質量問題從發現、指派、處理、優化沒有一個統一的流程和制度支撐,數據質量問題無法閉環。

 

  • 缺乏有效的數據管控機制對歷史數據質量檢查、新增數據質量校驗沒有明確和有效的控制措施,出現數據質量問題無法考覈。

 

 

數量質量的把控

 

定義數據質量標準

 

常用的數據質量評價標準在上述內容提到過:數據唯一性、數據完整性、數據準確性、數據一致性、數據關聯性、數據及時性等。

  

 

數據加工過程把控

 

 

在這些環節中,可以採用以下方式來保障數據質量

(1)代碼覈查

開發相關的規則分類大致爲:

-代碼規範類規則:如表命名規範、字段命名規範、生命週期設置、表註釋等

-碼質量類規則:數據清洗規則是否符合業務預期需求、特定字段的數據格式是否標準統一等。

-代碼性能類規則:如是否存在大小表join操作、多表進行join操作等

(2)代碼發佈覈查

加強測試環節,測試環境測試後再發布到生成環境,且生成環境測試通過後纔算發佈成功。

總結:

從數據的源頭抓起,嚴格落實規範和機制。關於數據需求的邏輯、模型設計如何規範化、代碼是否有CR(CodeReview)機制等方面的流程,一定要有明確的定義以及標準。

設置質量管理點質量控制點,從根本上解決數據質量問題。一旦發現數據的異常值,抓住影響數據質量的關鍵因素,可以根據數據產生的邏輯順藤摸瓜找到產生數據的業務環節。

- 完 -

想學習更多的技術內容, 別忘了關注普適極客哦~