隨着大數據時代的到來,愈來愈多的行業開始注重數據,而且使用數據爲業務賦能,數據質量是數據倉庫和數據挖掘的基礎,也是數據驅動業務的前提,同時數據質量是數據治理建設的重要一環,與元數據管理,數據標準化及數據服務管理等共同構建了數據治理的體系框架,建設一個完整的質量監控平臺,須要從監控、標註、流程制度等方面提高信息管理能力,優先解決所面臨的數據質量和數據服務問題。前端
一、完整性
完整性是指數據的記錄和信息是否完整,是否存在缺失的狀況。
數據的缺失主要包括庫表變動時沒有及時同步所造層:記錄中某個字段信息的缺失,形成統計結果不許確,因此說完整性是數據質量最基礎的保障。算法
二、準確性
準確性是指數據中記錄的信息和數據是否準確,是否存在異常或者錯誤的信息。
直觀來說就是看數據是否上準確的。通常準確性的監控多集中在對業務結果數據的監控,好比每日的活躍、收入等數據是否正常。後端
三、一致性
一致性是指同一指標在不一樣地方的結果是否一致,是否存在較波動。
數據不一致的狀況,多出如今數據系統達到必定的複雜度後,同一指標會在多處進行計算,因爲計算口徑或者開發人員的不一樣,容易形成同一指標出現的不一樣的結果。微信
四、及時性
在確保數據的完整性、準確性和一致性後,接下來就要保障數據可以及時產出,這樣才能體現數據的價值。
及時性很容易理解,主要就是數據計算出來的速度是否夠快,這點在數據質量監控中能夠體如今監控結果數據數據是否在指定時間點前計算完成。框架
數據監控主要包括:性能監控、平常監控、數據對帳,其中性能監控主要指:數據的讀寫,資源隊列使用、節點消耗等運維層面的監控,本次主要討論平常監控、數據對帳,運維
能夠從如下幾點思考源碼分析
:佈局
對於培優目前的3600多張表,1.5w 個任務,一些業務持續不斷變化,咱們須要關注哪些點,保障上層業務的穩定性:性能
數據質量監控是一個不斷迭代優化的過程,目前咱們也是在探索階段,但願和你們交流和學習,一塊兒作好對數據監控,持續爲業務賦能。學習
end
做者簡介
習沛爲好將來數據倉庫專家
招聘信息
好將來技術團隊正在熱招前端、算法、後端等各個方向高級開發工程師崗位,你們可掃描下方二維碼或微信搜索「好將來技術」公衆號,點擊「技術招聘」欄目瞭解詳情,歡迎感興趣的夥伴加入咱們!
也許你還想看