時間序列異常檢測基礎研究
隨着時間序列數據愈來愈頻繁的被使用,異常數據在時間序列中的價值被髮
掘和利用,愈來愈多的人們將目光投入到時間序列異常檢測領域,而且提出了不少
時間序列異常檢測技術,這些技術的提出大大促進了時間序列異常檢測領域的發
展,對於後面學者進行時間序列數據挖掘有着重要的參考價值。
上一章介紹了時間序列數據的來源,時間序列數據挖掘的起源還有發展過程,
而且描述了時間序列異常檢測領域的一些知識,本章介紹一些經常使用的時間序列異
常檢測技術,而且介紹各個算法的優缺點,以及各自適用的數據和場景,經過比較
能夠獲得一些結論,對於本文提出的時間序列異常檢測方案有着重要的幫助。算法
時間序列異常檢測數據
數據挖掘是從大量的數據中挖掘出有價值的、深層次的的知識的過程,大部分
的數據挖掘工做的研究重點都是爲了發現那些數據中頻繁出現的模式或者由此總
結出某種規律,好比周期、關聯關係等等,可是在某些場景中,非頻繁出現的模式
或者說異常的模式每每具備更大的價值,能帶來更有啓發的知識。好比網絡入侵檢
測、電子交易欺詐檢測、可疑活動的監控等等。這樣的數據挖掘工做開啓了一個新
的研究領域,就是異常檢測,異常檢測做爲數據挖掘的一個分支,正在受到愈來愈
多的關注和研究,在數據挖掘領域的異常檢測一般能夠分爲五類:基於聚類的方法
[19]、基於距離的方法[20]、基於密度的方法[21-23]、基於分佈的方法[24]等,基於分佈
的方法是由統計學領域發展起來的,假設數據集是服從必定的分佈的,這樣對於數
據集的每一個對象做迴歸分析,而後判斷其是不是異常。基於聚類和分類的算法能夠
針對高維的數據,能夠利用現有的成果,可是由於其沒有對異常檢測做一些改進,
因此效果並非那麼好,並且每每效率也不高。
對於時間序列而言,其有着一個重要的屬性就是時間屬性,其序列的每一個數據
點之間存在嚴格的時間順序,而且間隔是固定的,因此對於這種數據進行的異常檢
測每每有着特定的技巧。針對其的異常定義也與普通數據挖掘領域中的異常不盡
相同。大部分人認爲時間序列中的異常有着點異常、序列異常、模式異常。同時對
於時間序列的異常檢測也面臨了一些挑戰,包括對於異常的定義的模糊,使得要檢
測的內容並不清楚,並且時間序列中距離的定義是一種很重要的部分,可是不一樣的
距離的定義對於時間序列的異常檢測產生的影響很大,並且不少常見的距離度量
算法好比歐幾里得距離在時間序列的各個子序列之間進行距離度量時是不適用的,網絡