揭祕丨大數據時代,數據背後那些事兒你知道多少?

1、前言

隨着大數據時代的到來,愈來愈多的行業開始注重數據,而且使用數據爲業務賦能,數據質量是數據倉庫和數據挖掘的基礎,也是數據驅動業務的前提,同時數據質量是數據治理建設的重要一環,與元數據管理,數據標準化及數據服務管理等共同構建了數據治理的體系框架,建設一個完整的質量監控平臺,須要從監控、標註、流程制度等方面提高信息管理能力,優先解決所面臨的數據質量和數據服務問題。前端

2、數據質量評估標準

一、完整性
完整性是指數據的記錄和信息是否完整,是否存在缺失的狀況。
數據的缺失主要包括庫表變動時沒有及時同步所造層:記錄中某個字段信息的缺失,形成統計結果不許確,因此說完整性是數據質量最基礎的保障。算法

二、準確性
準確性是指數據中記錄的信息和數據是否準確,是否存在異常或者錯誤的信息。
直觀來說就是看數據是否上準確的。通常準確性的監控多集中在對業務結果數據的監控,好比每日的活躍、收入等數據是否正常。後端

三、一致性
一致性是指同一指標在不一樣地方的結果是否一致,是否存在較波動。
數據不一致的狀況,多出如今數據系統達到必定的複雜度後,同一指標會在多處進行計算,因爲計算口徑或者開發人員的不一樣,容易形成同一指標出現的不一樣的結果。微信

四、及時性
在確保數據的完整性、準確性和一致性後,接下來就要保障數據可以及時產出,這樣才能體現數據的價值。
及時性很容易理解,主要就是數據計算出來的速度是否夠快,這點在數據質量監控中能夠體如今監控結果數據數據是否在指定時間點前計算完成。框架

3、數據監控包括哪些

數據監控主要包括:性能監控、平常監控、數據對帳,其中性能監控主要指:數據的讀寫,資源隊列使用、節點消耗等運維層面的監控,本次主要討論平常監控、數據對帳,運維

能夠從如下幾點思考源碼分析

佈局

  1. 監控數據資產質量狀態(同步表數據是否一致),爲優化數據平臺和數倉性能、合理配置數據存儲資源提供決策支持;
  2. 實現推進數據質量監控預警(提早告知),不只包括離線,目前在建設的實時也須要提早佈局,作到監控預知;
  3. 規範問題故障跟蹤、Review、後續改進的優化方案,需有計劃執行;
  4. 由技術檢測到業務監督,造成閉環工做流機制,提升總體數據質量,全面提高服務業務水平;

4、技術方案

對於培優目前的3600多張表,1.5w 個任務,一些業務持續不斷變化,咱們須要關注哪些點,保障上層業務的穩定性:性能

  1. 從業務入手,從中提煉中間層,所使用到哪些表,進行概括總結,其主要目的:把核心表抽象抽象出來,重點對這些表數據進行監控,核心的業務,好比:選址、渠道、校區等指標所使用到的中間表,儘可能作到電話報警,及時反饋,及時處理。
  2. 從底層數據展開,由於這一層數據是底層,是重中之重,上層全部的業務,畫像,洞察等業務數據都依賴,稍微一個字段變動,均可能會引起故障,因此這一層需監控表、字段的變動。
  3. 任務的監控, airflow天天晚上從凌晨開始調度,抽取數據,大批量的數據都開始同步,因此對於核心表進行拆分:作增量同步,減小全量同步的壓力。
  4. 最後夥伴每週的值周,值周生需重點關注:
    1.1. 知音樓羣中報警
    1.2. 賦能羣裏面反饋問題
    1.3. 增長核心表報警數據波動變化

5、困難點

  1. 告警信息太多了,太容易被忽略怎麼辦?
    思路:提升告警的準確率,避免無用告警:
    a: 加入反饋機制,若是告警是正常的,就打上正常的tag,後續告警規則根據反饋進行優化;
    b: 在報警時,對核心業務報警加上特殊字體標示;
  2. 對於指標準確性的思考,一般數據的鏈路比較長,最終的指標計算完,中間須要通過好幾步,怎麼保證每一個環節都是正確的,且最終結果是正確的?
    思路:能夠對每一個環節加監控,從數據量來對比查看(方案1)
    a: 每一層代碼有 Code Review,保證代碼邏輯正常

數據質量監控是一個不斷迭代優化的過程,目前咱們也是在探索階段,但願和你們交流和學習,一塊兒作好對數據監控,持續爲業務賦能。學習

end

做者簡介

習沛爲好將來數據倉庫專家

招聘信息

好將來技術團隊正在熱招前端、算法、後端等各個方向高級開發工程師崗位,你們可掃描下方二維碼或微信搜索「好將來技術」公衆號,點擊「技術招聘」欄目瞭解詳情,歡迎感興趣的夥伴加入咱們!

也許你還想看

DStack--基於flutter的混合開發框架

WebRTC源碼分析——視頻流水線創建(上)

"考試"背後的科學:教育測量中的理論與模型(IRT篇)

相關文章
相關標籤/搜索