簡介:本文將介紹攜程實時智能異常檢測平臺——Prophet。到目前爲止,Prophet 基本覆蓋了攜程全部業務線,監控指標的數量達到 10K+,覆蓋了攜程全部訂單、支付等重要的業務指標。Prophet 將時間序列的數據做爲數據輸入,以監控平臺做爲接入對象,以智能告警實現異常的告警功能,並基於 Flink 實時計算引擎來實現異常的實時預警,提供一站式異常檢測解決方案。算法
大部分監控平臺是基於規則告警實現監控指標的預警。規則告警通常基於統計學,如某個指標同比、環比連續上升或降低到必定閾值進行告警。規則告警須要用戶較爲熟悉業務指標的形態,從而較爲準確的配置告警閾值,這樣帶來的問題是配置規則告警很是繁瑣、告警效果也比較差,須要大量人力物力來維護規則告警。數據庫
當一個告警產生時,也須要耗費許多人力驗證告警是否正確並確認是否須要從新調整閾值。在攜程,規則告警還涉及了其它問題,好比攜程僅公司級別的監控平臺就有三個,每一個業務部門還會根據本身的業務需求或業務場景構建本身的監控平臺。攜程內部有十幾個不一樣規模的監控平臺,在每個監控平臺都配置監控指標,對於用戶是很是繁瑣的。架構
針對規則告警存在的以上幾種問題,攜程構建了本身的實時智能異常檢測平臺—— Prophet。攜程構建 Prophet 的靈感源於 FaceBook 的 Prophet,但實現上有別於 FaceBook 的 Prophet。機器學習
首先,Prophet 以時間序列類型的數據做爲數據輸入。其次,Prophet 以監控平臺做爲接入對象,以去規則化爲目標。基於深度學習算法實現異常的智能檢測,基於實時計算引擎實現異常的實時檢測,提供了統一的異常檢測解決方案。oop
目前主流的實時計算引擎有 Flink、Storm 和 SparkStreaming 等多種,攜程選擇Flink 做爲 Prophet 平臺的實時計算引擎的緣由主要是Flink具有如下四點特徵:學習
用戶只須要在本身經常使用的監控平臺上選擇配置智能告警,後續全部流程都是由監控平臺和 Prophet 智能告警平臺對接完成。監控平臺所須要作的包含兩件事:ui
Prophet 在接受到新的監控指標後,便開始嘗試使用 Tensorflow 訓練模型。模型訓練須要歷史數據,平臺能夠按照約定好的規範提供歷史數據查詢接口,Prophet 經過接口獲取歷史數據並進行模型訓練、若是沒有接口,Prophet 基於消息隊列中的數據來積累訓練數據集。模型訓練完成後,將其上傳到 HDFS,Prophet 會更新配置中心中的配置通知 Flink 有新訓練好的模型能夠加載。全部實時推送到 Kafka 裏面的監控指標的數值,會同步的落到 Prophet 的時序數據庫中,在異常檢測的過程當中須要用到這些指標數值。spa
當模型訓練完成後,Flink 的做業一旦監聽到配置發生了更新,就開始嘗試加載新模型,實時消費 Kafka 裏面的指標數據,最終產出檢測結果以及異常告警會回寫至 Kafka,各個監控平臺會從 Kafka 獲取本身監控平臺的那一部分告警數據。整套 Prophet 操做流程對於用戶是無感知的,用戶只須要配置告警,極大的提供了便捷性。日誌
在作智能檢測以前還會遇到一些挑戰。orm
針對以上三點問題,攜程嘗試了 RNN,LSTM 和 DNN 等多種深度學習算法。
攜程通常兩週發一次版本,每一個業務指標都是每兩週嘗試訓練一次,模型輸入的訓練數據也取兩週的數據集。
模型訓練完成後,Flink 做業須要動態加載模型。但實際場景下,不可能每訓練一個模型便重啓一次 Flink 做業。因此 Prophet 平臺將模型訓練完成後上傳到 HDFS,通知配置中心,而後 Flink 做業開始從 HDFS 上拉取模型。爲了使每一個模型均勻分佈在不一樣的 Task Manager 上面,全部監控指標會根據自己 id 作 keyBy,均勻分佈在不一樣的 Task Manager 上。每一個 Task Manager 只加載本身部分的模型,以此下降資源消耗。
模型加載完成後須要作實時異常檢測。首先從 Kafka 消息隊列中消費實時數據。Prophet 目前基於 Flink Event Time + 滑動窗口。監控指標的時間粒度能夠分爲不少種,如 1 分鐘一個點、5 分鐘一個點、10 分鐘一個點等等。例如基於 1 分鐘一個點的場景來看,在 Flink 做業中開一個窗口,其長度是十個時間粒度,即十分鐘。當積累到十條數據時,用前五個數據預測下一個數據,即經過第 一、二、三、四、5 五個時刻的數據去預測第六個時刻的數據,而後用第 二、三、四、五、6 時刻的數據預測第七個時刻的數據。最終得到第 六、七、八、九、10 五個時刻的預測值和實際值。再利用預測值與實際值進行對比。以上是數據無異常的理想場景下的狀況。
實際場景下每每會出現意想不到的狀況。例如上述 10 分鐘的場景中只得到了 9 條數據,缺乏第4個時刻的數據, Prophet 會使用均值標準差補齊此類缺失數據。另外若是在上一個時刻檢測到第 六、七、八、九、10 時間區間是異常區間,發生了下跌或者上升。那麼此區間的數據被認爲是不正常的,不能做爲模型輸入。此時須要用上一批次模型預測出的第 6 時刻的值替換原始的第六個時間粒度的值。第 二、三、四、五、6 這五個時刻值中第 4 是插補而來的,第 6 是時間區間訓練出來的預測值替換掉了異常值。
以插補替換以後的值做爲模型輸入,獲得新的預測值7。再依次進行預測。中間過程當中異常區間第 六、七、八、九、10 時刻的預測值須要做爲一個狀態來存儲到 Flink StateBackend,後續窗口會使用到這些預測值。
實時異常檢測主要能夠從如下幾個方面進行判斷:
常見問題
異常緣由
解決方案
閱讀原文看場景運用:https://developer.aliyun.com/...