數據的一組固有屬性知足數據消費者要求的程度。後端
1)數據固有屬性安全
2)高質量數據知足要求(消費者角度)工具
數據質量管理,是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命週期的每一個階段裏可能引起的各種數據質量問題,進行識別、度量、監控、預警等一系列管理活動,並經過改善和提升組織的管理水平使得數據質量得到進一步提升。編碼
任何改善都是創建在評估的基礎上,知道問題在哪才能實施改進。一般數據質量評估和管理評估需經過如下幾個維度衡量。常見的如下維度:設計
1)完整性3d
完整性,是指數據信息是否完整,是否存在缺失狀況。數據缺失的狀況多是整個數據記錄缺失,也多是數據中某個字段信息的記錄缺失。記錄的完整性,通常使用統計的記錄數和惟一值個數。完整性的另外一方面,記錄中某個字段的數據缺失,可以使用統計信息中的NULL的個數進行審覈。通常空值的佔比基本恆定,一樣可使用統計的空值個數來計算空值佔比,若是空值的佔比明顯增大,極可能這個字段的記錄出現了問題,信息出現缺失。總而言之,完整性可用記錄數、均值、惟一值、空值佔比等指標來衡量。blog
2)規範性排序
規範性,是指記錄是否符合規範,是否按照規定的格式存儲(例如標準編碼規則)。數據規範性審覈是數據質量審覈中比較重要也是比較複雜的一塊。規範性檢驗主要是檢驗數據和數據定義是否一致,所以能夠經過合規記錄的比率來衡量。好比取值範圍是枚舉集合的數據,其實際值超出範圍以外的數據佔比,好比存在特定編碼規則的屬性值不符合其編碼規則的記錄佔比。生命週期
3)一致性開發
一致性,是指數據是否符合邏輯,數據內單項或多項數據間存在邏輯關係。一致性檢驗,存在邏輯關係的屬性之間的校驗,好比屬性A取某定值時,屬性B的值應該在某個特定的數據範圍內,均可以經過合規率來衡量。
4)準確性
準確性,用於度量哪些數據和信息是不正確的,或者數據是超期的。準確性可能存在於個別記錄,也可能存在於整個數據集上。準確性和規範性的差異在於規範性關注合規,表示統一,而準確性關注數據錯誤。所以,一樣的數據表現,好比數據實際值不在定義的範圍內,若是定義的範圍準確,值徹底沒有意義,那麼這屬於數據錯誤。
數據的準確性可能存在於個別記錄,也可能存在於整個數據集。若是整個數據集的某個字段的數據存在錯誤,這種錯誤很容易發現,利用平均數和中位數也能夠發現這類問題。當數據集中存在個別的異常值時,可以使用最大值和最小值的統計量去審覈,或者使用箱線圖也可讓異常一目瞭然。
還有幾個準確性的審覈問題,字符亂碼的問題或者字符被截斷的問題,可使用分佈來發現這類問題,通常的數據記錄基本符合正態分佈或者類正態分佈,那麼那些佔比異常小的數據項極可能存在問題。若是數據並無顯著異常,但仍然可能記錄的值是錯誤的,只是這些值和正常值比較接近而已,這類準確性檢驗最困難,通常只能與其餘來源或者統計結果進行對比來發現問題。
5)時效性
數據從產生到能夠查看的時間間隔,也叫數據的延時時長。某些實時分析和決策須要用到小時或者分鐘級的數據,這些需求對數據的時效性要求極高,因此及時性也是數據質量的組成要素之一。例如定義某張表在每個月最晚達到的日期是幾號。
6)惟一性
惟一性,用於度量哪些數據是重複數據或者數據的哪些屬性是重複的。即對存在於系統內或系統間的特定字段、記錄或數據集意外重複的測量標準。
7)合理性
合理性,是從業務邏輯角度判斷數據是否正確。評估方面可參照規範性、一致性作法。
8)冗餘性
冗餘性,是指多層次數據中是否存在沒必要要的數據冗餘。
9)獲取性
獲取性,是指數據是否易於獲取、易於理解和易於使用。
影響數據質量的因素主要來源於四方面:信息因素、技術因素、流程因素和管理因素。
1)信息因素
產生這部分數據質量問題的緣由主要有:元數據描述及理解錯誤、數據度量的各類性質(如:數據源規格不統一)得不到保證和變化頻度不恰當等。
2)技術因素
主要是指因爲具體數據處理的各技術環節的異常形成的數據質量問題。數據質量問題的產生環節主要包括數據建立、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
3)流程因素
是指因爲系統做業流程和人工操做流程設置不當形成的數據質量問題,主要來源於系統數據的建立流程、傳遞流程、裝載流程、使用流程、維護流程和稽覈流程等各環節。
4)管理因素
是指因爲人員素質及管理機制方面的緣由形成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當致使的管理缺失或者管理缺陷。
能夠聽從下面的十步法原則(此部分摘自御數坊公開材料)。
找出有哪些業務受到數據質量問題的影響,或者因爲數據質量的改進將會爲企業帶來更好的業務效益的需求,評估這些業務需求並按照重要等級排序,做爲本次數據質量提高的目標與範圍。只有明確了業務需求與方法,才能確保要解決的數據質量問題是與業務需求相關的,從而真正的解決了業務問題。
細化已定義的業務需求,識別出業務需求與數據、數據規範、流程、組織和技術(如系統、軟件等)之間的關聯信息,定義信息生命週期,肯定數據來源及範圍。經過分析信息環境,不只能夠爲後續的緣由分析提供幫助,也可使咱們對數據問題及現狀有一個更全面、直觀的理解與認識。
從相關數據源提取數據,圍繞已定義的業務需求,設計數據評估維度並利用相關工具完成評估,將數據質量評估結果以圖表或報告形式準確的表達出來,使相關領導或業務人員都可以清晰的、直觀的瞭解實際的數據質量狀況,確保數據問題是與業務需求相關的,並可以獲得相關領導或業務人員的重視與支持。
瞭解低質量數據是如何影響業務的,爲何這些數據很重要,若是改善這些問題會帶來哪些業務價值。評估方式的複雜度越高所花費的時間越長,不過與評估效果卻並不必定成正比,因此在評估業務影響時也要注意方法的選擇。另外,要將業務影響評估結果及時歸檔,這樣,隨着時間的推移即使問題被淡化,也可以有跡可查。
在糾正數據問題以前要先肯定其根本緣由,產生問題的根源有不少。不過,有些問題的發生僅是表象,並不必定是致使錯誤數據的根本緣由,因此在分析的過程當中,要不斷的去追蹤數據進行問題定位,肯定問題最先出現的根本緣由;或者多問本身幾遍「WHY」以弄清楚問題的根本緣由,進而使問題獲得有效的解決,達到治標又治本的效果。
經過前面幾步詳細的問題分析及緣由肯定,在這一步則能夠有針對性的制定出合理的數據質量改進方案,包括對已知數據問題的改進建議及如何預防將來相似錯誤數據的發生。
根據解決方案的設計,預防將來錯誤數據的發生。
根據解決方案的設計,解決現有數據問題。這一步更可能是」髒活累活」,但對於最終質量目標的達成相當重要。
實施持續的監測,肯定是否已經達到預期效果。
對結果和項目進展狀況溝通,保證總體項目的持續推動。
1)質量評估
提供全方位數據質量評估能力,如數據的重複性、關聯性、正確性、徹底性、一致性、合規性等,對數據進行體檢進而識別和理解數據質量問題。有評價體系做爲參照,須要進行數據的採集、分析和監控,爲數據質量提供全面可靠的信息。在數據流轉環節的關鍵點上設置採集點,根據系統對數據質量的要求,配置相應的採集規則,經過在採集點處進行質量數據採集並進行統計分析,就能夠獲得採集點處的數據分析報告。
2)檢核執行
提供配置化的度量規則和檢核方法生成能力,提供檢核腳本的定時調度執行和第三方調度工具的調度執行功能。
3)質量監控
系統提供報警機制,對檢核規則或方法進行閥值設置,對超出閥值的規則進行不一樣級別的告警和通知。
4)問題管理
對數據問題進行流程處理支持,規範問題處理機制和步驟,強化問題認證,提高數據質量。經過質量評價體系和質量數據採集系統,能夠發現問題,以後還須要對發現的問題及時做出反應,追溯問題緣由和造成機制,根據問題種類採起相應的改進措施,並持續跟蹤驗證改進以後的數據質量提高效果,造成正反饋,達到數據質量持續改良的效果。
在源頭創建數據標準或接入標準,規範數據定義,在數據流轉過程當中創建監控數據轉換質量的流程和體系,儘可能作到在哪發現問題就在哪解決問題,不把問題數據帶到後端。
5)質量報告
系統提供了豐富的API可進行定製化數據質量包括開發,另外系統內置了經常使用質量報告。
6)質量分析
提供多種問題分析能力,包括血統分析,影響分析,全鏈分析,定位問題產生的根源。
做者:韓鋒
首發於做者我的公號《韓鋒頻道》。
來源:宜信技術學院