[譯] 時間序列異常檢測算法

時間 2019-11-07

標籤時間序列異常檢測算法简体版

原文原文鏈接

原文地址：Time Series Anomaly Detection Algorithms

原文做者：Pavel Tiunov

譯文出自：掘金翻譯計劃

本文永久連接：github.com/xitu/gold-m…

譯者：haiyang-tju

校對者：nanjingboy

通俗易懂的異常檢測技術現狀

在 Statsbot 中，咱們不斷回顧了異常檢測方法的發展，並在此基礎上從新完善了咱們的模型。前端

本文概述了最經常使用的時間序列異常檢測算法及其優缺點。android

本文針對的是隻想了解一下異常檢測技術現狀的無經驗讀者。咱們不想用複雜的數學模型來唬人，因此咱們把全部的數學原理推導都放在下面的推薦連接裏面了。ios

時間序列的異常檢測問題一般表示爲相對於某些標準信號或常見信號的離羣點。雖然有不少的異常類型，可是咱們只關注業務角度中最重要的類型，好比意外的峯值、降低、趨勢變化以及等級轉換。git

想象一下，你在本身的網站上跟蹤用戶數量，發現用戶在短期內出現了意想不到的增加，看起來就像一個峯值。這些類型的異常一般稱爲附加異常。github

關於網站的另外一個例子是，當你的服務器宕機時，你會看到在短期內有零個或者很是少的用戶訪問。這些類型的異常一般被分類爲時間變化異常。web

在你處理一些關於轉化率問題時，轉化率可能會降低。若是發生這種狀況，目標度量一般不會改變信號的形狀，而是改變在一段時間內它的總價值。根據變化的性質，這些類型的變化一般被稱爲水平位移或季節性水平位移異常。算法

一般，異常檢測算法應該將每一個時間點標記爲異常/非異常，或者預測某個點的信號，並衡量這個點的真實值與預測值的差值是否足夠大，從而將其視爲異常。後端

使用後面的方法，你將可以獲得一個可視化的置信區間，這有助於理解爲何會出現異常並進行驗證。服務器

Statsbot 的異常報告顯示，實際的時間序列、預測的時間序列和置信區間有助於理解異常發生的緣由。網絡

讓咱們從應用的角度來回顧一下這兩種算法類型，以及找到各種型的異常值。

STL 表示基於損失的季節性分解的過程。該技術可以將時間序列信號分解爲三個部分：季節性變化（seasonal）、趨勢變化（trend）和剩餘部分（residue）。

由上到下依次爲：原始時間序列和使用 STL 分解獲得的季節變化部分、趨勢變化部分以及殘差部分。

顧名思義，這種方法適用於季節性的時間序列，這是比較常見的狀況。

分析殘差的誤差，而後引入殘差閾值，這樣就能獲得一種異常檢測得算法。

這裏不太明顯的地方是，咱們爲了獲得更可靠的異常檢測結果，使用了絕對中位誤差。該方法目前最好的實現是 Twitter 的異常檢測庫，它使用了 Generalized Extreme Student Deviation（廣義的 ESD 算法）測試殘差點是不是一個離羣點。

該方法的優勢在於其簡單性和健壯性。它能夠處理不少不一樣的狀況，而且全部的異常狀況仍然能夠直觀解釋。

它主要擅長於附加的異常值檢測。若是想要檢測一些水平變化，則能夠對移動平均信號進行分析。

該方法的缺點是在調整選項方面過於死板。你所能作的只有經過顯著性水平來調整置信區間。

當信號特徵發生了劇烈變化時，該方法就失效了。例如，跟蹤本來對公衆是關閉狀態的，卻忽然對公衆開放的網站用戶數量。在這種狀況下，就應該分別跟蹤在啓動開放以前和開放以後發生的異常。

分類迴歸樹（CART）是目前最穩健、最有效的機器學習技術之一。它也能夠應用於異常檢測問題。

首先，可使用監督學習來訓練分類樹對異常和非異常數據點進行分類。這裏須要標記好的異常數據點。
第二種方法，可使用無監督學習算法來訓練 CART 來預測時序數據的下一個數據點，獲得和 STL 分解方法相似的置信區間或預測偏差。而後使用廣義的 ESD 算法來測試或者使用 Grubbs 檢驗算法來檢查數據點是否位於置信區間以內。