關於DAMA數據質量管理的解讀和一些見解


數據質量管理是組織變革管理中一項關鍵的支撐流程,包括整合數據源、建立一致的數據副本、交互提供數據或整合數據。數據清洗不能解決數據缺陷的根本緣由。微信

數據質量管理是一個持續的過程,爲知足業務需求的數據質量標準制定規格參數,而且保障量可以知足這些標準。數據質量管理包括數據質量分析、識別數據異常和定義業務需求及相關業務規則,還包括在必要的時候對已定義的數據質量規則進行合規性檢查和監控的流程,以及數據解析、標準化、清洗和整合。最後,數據質量管理還包括問題跟蹤,從而對已定義的數據質量服務水平協議的合規性進行監控。框架

數據資產管理白皮書指出數據質量是保證數據應用效果的基礎。數據質量是描述數據價值含量的指標,就像鐵礦石的質量,礦石的質量高,則煉出來的鋼材就會多;反之,礦石的質量低,不但練出來的鋼材少了,同時也增長了提煉的成本。工具

 


仔細品味,詳細讀之,在DAMA晦澀的語言下,其實包含了很多真知灼見,提出了供給者、參與者、消費者的概念,也提到了數據認責,提到了流批質量處理,而且強調將利益相關方和績效管理歸入到數據質量管理範疇,而這一點偏偏是數據質量管理避諱的。測試

一、開發和提高數據質量意識大數據

尤爲強調了將數據質量問題和實質影響聯繫起來,包括數據質量問題不能僅僅依靠技術手段解決的理念,而後提供一些基礎培訓、創建數據質量管理委員會,提高參與意識,強調我的績效,數據需求分析要歸入到整個系統開發週期等等;這一點是數據質量管理的基礎和成敗的關鍵,但也每每是企業的痛點,首先高層知道數據質量的重要性,但業務系統的建設和穩定性纔是推進企業發展的重點,對數據質量的重視每每停留在口頭上;信息化部門的執行力因爲缺少上層的支持,對其餘業務部門的協調力度不夠,畢竟數據質量是要作大量的溝通協調工做,甚至須要對業務系統進行完善和修訂,而每每經費僅限定於數據質量平臺,未考慮其餘費用;數據質量平臺作了大量的基礎工做、規則收集、腳本驗證、生成報告,有了閉環流程,因爲少了業務部門、業務廠家的參與,卻起不到應有的做用,因而年復一年日復一日,各方都對數據質量管理產生了懷疑。如何破局呢?一是給高層洗腦,二是要對企業信息化水平現狀有足夠的認知,三是提供合理的方案,四是全方位聯動,但代價過高,又會致使詬病。spa

2、定義數據質量需求 .net

數據質量必須在適用性背景下被理解,要聽從外部的管理法規、行業標準和內部的市場、銷售、物流等業務規則;數據質量維度包括準確性、完整性、一致性、合理性、參照完整性、及時性、惟一性、有效性、精確度、隱私、時效性;在DAMA裏數據質量維度定義的很是全面,強調了時效性和隱私,並且把準確性和一致性作了區分,又對一致性作了記錄級一致性、跨記錄一致性、時間一致性等細分。這是數據質量管理中應該增強的。設計

3、剖析、分析和評估數據質量blog

自下而上是基於自動流程的處理結果,強調潛在問題,包括出現率分析、重複性分析、跨數據集的依賴關係、孤兒數據記錄和冗餘分析。開發

自上而下,用戶參與記錄業務流程和關鍵數據的依賴關係,須要理解業務流程如何使用數據,哪些數據元素對於業務應用的成功相當重要。記錄填充率,頻繁值、異常值、字段關係、跨表關係、屬性填充值。

通常在評估和分析數據質量採用二者融合的方式進行的,自下而上能夠基於元數據、血緣關係等進行量化分析的方式得到,以框定數據質量管理的實施範圍;自上而下版來自業務部門的需求,畢竟最熟悉業務的仍是業務人員,業務人員對數據質量的需求是第一手需求。

4、定義數據質量指標

可度量行、業務相關性、可接受程度、可控性、可跟蹤性、數據認責制度/數據管理制度,前面提到的主要是數據質量指標要求,數據認責制度/數據管理制度則是要求將數據管理落實到相關崗位角色,以便進行糾錯。據統計數據質量問題76%來自數據錄入錯誤53%來自源系統的變化48%來自數據遷移或項目改建46%來自用戶不一樣的指望26%來自系統錯誤;絕大多數管理者認爲IT人員應該對數據質量負責,實際上最該負責是用戶,數據認責在後來的數據治理框架中也不斷被強化和重視,數據認責的主要內涵是肯定數據治理工做的相關各方的責任和關係,包括數據治理過程當中的決策、執行、解釋、彙報、協調等活動的參與方和負責方,以及各方承擔的角色和職責等。所以數據質量管理中也要歸入數據認責管理。

5、定義數據質量業務規則

定義數據質量業務規則,包括了數據缺陷的識別和分類,自動通知或預警,並創建缺陷數據糾正機制。並對數據缺陷的分類作了一些詳細的說明,包括值域成員業務規則,定義一致性業務規則,值域一致性規則,格式一致性規則,映射一致性規則,精確度驗證、惟一性驗證、及時性驗證等等。

6、測試和驗證數據質量需求

這裏面提到的主要是經過數據剖析工具將上述規則進行驗證,並創建數據質量基線。

7、肯定並評估數據質量服務水平

這裏面提到了數據質量的服務水平協議即SLA,不少時候數據質量沒有量化標準或者指望太高或者要求全域或者要求所有,所以須要提早設定數據質量標準,這個標準的來源於用戶需求或抽樣的數據質量基線。同時數據質量服務水平是動態的,要根據質量問題的嚴重性或解決問題的時間要求越級上報。

8、持續測量和監控數據質量

傳統的數據質量管理通常是離線處理,或者在數據倉庫中進行數據質量管理的,DAMA中顯著的提到了流式和批量兩種數據質量檢查方式,並基於三種監控粒度:數據值、記錄、數據集;不得不說傳統的數據質量監控或管理存在嚴重的滯後性問題,而大數據技術的發展也驅動了數據質量前置,能夠作到事前事中的控制;DAMA這一點仍是比較超前和有預見性的。

9、管理數據質量問題

管理數據質量問題,第一是數據質量問題和活動標準化,第二是流程管理,第三是問題上報,第四是管理數據質量解決流程,而後造成信息共享知識庫,有了相關知識庫能夠造成數據質量問題解決流程和方案,同時藉助於如今的天然語言處理或知識圖譜,造成數據質量地圖。

十、清洗並糾正數據質量缺陷

這裏面提到了自動校訂、人工指導校訂和人工校訂三種數據校訂方式,這樣的提法沒什麼問題,但實際操做起來卻不樂觀,在數據倉庫中或者兩兩業務系統比較能夠採用數據清洗的方式進行數據質量自動或人工指導校訂,但單一的業務系統或者涉及主數據的系統,數據的準確性有待於帳實覈查,而不是靠清洗的手段解決缺陷問題。

11、設計並實施數據質量管理操做程序

關於數據質量管理操做程序,這裏面提到的4項活動,主要包括檢查和監控,診斷和評估補救辦法,解決問題和報告,我的認爲目前的數據質量管理在診斷和評估補救辦法和解決問題作的還遠遠不夠,基本上都是就事論事,數據質量管理平臺和項目較多,而數據運營較少,致使數據質量問題缺少全面和根本緣由分析定位。

12、監控數據質量管理操做程序和績效

在這裏着重提到了責任制是監控數據質量協議的關鍵,責任制不外乎三件事,一是數據質量要有閉環流程,從發現到上報到定位分析處處理到跟蹤到反饋;二是數據質量的績效落實人,沒有績效就沒有動力;三是數據認責要明確數據的主人,使用人,管理人員。


本文分享自微信公衆號 - 追夢IT人(baoqiangwang2020)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索