日誌和告警數據挖掘經驗談——利用日誌類似度進行聚類，利用時間進行關聯分析

時間 2019-11-11

標籤日誌告警數據挖掘經驗利用類似進行時間關聯分析简体版

原文原文鏈接

摘自：http://www.36dsj.com/archives/75208

最近參與了了一個日誌和告警的數據挖掘項目，裏面用到的一些思路在這裏和你們作一個分享。python

項目的需求是收集的客戶系統一個月300G左右的的日誌和告警數據作一個整理，主要是歸類(Grouping)和關聯(Correlation)，從而獲得告警和日誌的一些統計關係，這些統計結果能夠給一線支持人員參考。算法

獲得的數據主要分爲兩部分，一部分是告警的歷史數據，這部分數據不多，只有50M左右，剩下的所有都是日誌數據。日誌數據大概有50多種不一樣類型，對應系統中不一樣的模塊。每種類型的文件天天產生一個日誌文件，因此總數大概是1500個左右的日誌文件。文件大概都是這樣的：A_2016-04-15.log, B_2016-04-15.log, …, A_2016-05-14.log, B_2016-05-14.log。每一個文件在10M-1G之間不等。數組

1. 日誌的模式挖掘

經過查看日誌，發現全部的log每一行基本都是相似這樣的Pattern:機器學習

YYYY-MM-DD hh:mm:ss [模塊名] [具體日誌]函數

每類日誌的模塊名都是同樣的，基本能夠忽略。有價值的就是時間戳和具體日誌。學習

並且能夠發現，不少日誌只是極少部分動態內容不一樣，在代碼中屬於同一個位置的輸出，這些數據後面咱們會分爲一類數據。好比：大數據

2016-04-26 00:30:38.795 55637 ResourceManager Free ram (MB): 244736spa

2016-04-26 00:34:38.795 55637 ResourceManager Free ram (MB): 244748日誌

有某些類型日誌每一個時段都有出現，諮詢後得知基本沒有任何分析價值，這些日誌後面咱們會加入黑名單，不加分析。blog

2. 日誌的歸類

因爲每類日誌都有30個文件，每一個文件基本都有100萬行，咱們的第一步工做就是去除上面提到的無用日誌。去掉無用日誌後，咱們要分析的日誌大概減小了30%。

接着咱們要作的就是每一行的日誌進行歸類（Grouping）。這裏有不少的方法能夠選擇，好比K-means，可是咱們這麼多的日誌，很難去定義一個合適的K。通過一番嘗試後咱們放棄了K-means。可是K-means的思想仍是能夠用的。最後咱們使用的是啓發式的方法來歸類。

首先定下的基本思路是：對於每一類文件，咱們分別作歸類，最後再一塊兒和告警文件作關聯（Crrelation）。咱們做了不一樣類別文件的日誌確定不在一類的假定。

對於每一類文件的每一行日誌，咱們咱們經過對具體日誌的字符串的類似度進行歸類，算法以下：

1）初始化將最終類別數組設置爲空，類別數組的每一行的格式是 [index] [類別裏第一次出現的具體日誌內容] [該類日誌出現的全部時間造成的數組]

2）初始化字符串類似度閾值，類似度超過閾值的字符串即爲一類。項目裏面咱們類似度閾值取80%。

3）初始化歸類的時間間隔，在一個時間間隔內的類似日誌僅僅記錄一次時間。也就是說若是某類日誌已經有這段時間的記錄，再次在這段時間出現的相似日誌將會被忽略。取的過大，後面關聯時精確度下降，取的太小，後面關聯時計算量會很大。項目裏咱們取10分鐘做爲日誌間隔。也就是一天劃分紅了24*6個時間間隔。

4）對於某一種類別，對於每一行的具體日誌咱們去和該類別的最終類別數組的每一行的具體日誌作類似度比較：

a) 若是和最終類別裏的某行具體日誌的字符串的類似度超過了閾值，則這兩個字符串即歸爲一類，僅僅把這個要分析的具體日誌的時間點存入該類別，中止該行日誌的分析。

b) 若是和最終類別裏的任何一行具體日誌的字符串的類似度都低於閾值。則咱們發現了一個新的類別。在最終類別里加入一行記錄。並把該日誌的時間間隔對應的點做爲該類別的時間數組的第一條時間記錄。

5）對於全部其餘的類別，分別執行上面的第4步。獲得全部類別的最終類別數組。最終咱們的50多個類別數組一共只剩下100多M，每一個數組平均有100多種類別。

這個算法產生的類別數組中每一行是這樣的內容：

1 ResourceManager Free ram (MB): 244736 [[2016-04-26 00:30],[2016-04-26 10:40], …]

上面的算法中，咱們用到了字符串類似度算法。這裏咱們用到是python的字符串下類似度算法庫：python-Levenshtein。計算類似度咱們用了python-Levenshtein庫的ratio函數，即萊文斯坦比。若是你們對python-Levenshtein的字符串類似度計算有興趣，能夠參考python-Levenshtein的官方文檔：https://pypi.python.org/pypi/python-Levenshtein/0.12.0#id1

3. 日誌和告警的關聯

如今咱們有了50多種日誌的類別數據，每一個類別也有在時間分佈上的數據，同時，回到告警，每一個告警也有在時間分佈上的數據。如今咱們能夠在時間維度上作關聯算法。

咱們的日誌類別數組和告警在時間維度一共有30*24*6=4320個點。咱們的目標是找到和每一個告警在時間維度上關聯度比較高的一組日誌。這裏咱們採用的是基於餘弦類似度的算法（？？？）。咱們選擇了全部的和告警在時間維度上類似度超過80%的日誌類別。這些類別做爲最終的統計結果做爲咱們輸出的一部分。

4. 告警和告警的關聯

這部分工做主要是研究告警和告警之間的統計關係。主要是基於統計的在時間維度上的父子關係。

因爲告警數據較少，咱們將時間間隔精確到1分鐘。對於每一種告警，咱們檢查在該告警和其餘告警在時間維度上的關係。咱們檢查3種狀況。

第一種狀況是在相同時間間隔出現的兄弟告警和該告警的統計關係，咱們選擇在時間維度上和該告警類似度超過80%的全部告警，這些告警和該告警有時間上同步的關係，也就是這些告警統計上老是和該告警同時出現。

第二種狀況是在該告警出現前一分鐘內的全部父親告警和該告警的關係，咱們選擇在時間維度上和該告警類似度超過80%的全部告警，這些告警和該告警有時間上前後的關係，也就是這些告警統計上老是在該告警以前出現。

第三種狀況是在該告警出現後一分鐘內的全部兒子告警和該告警的關係，咱們選擇在時間維度上和該告警類似度超過80%的全部告警，這些告警和該告警有時間上前後的關係，也就是這些告警統計上老是在該告警以後出現。

以上就是對日誌和告警數據挖掘的項目經驗總結，但願對你們有所啓發。

做者：劉建平Pinard（十年碼農，對數學統計學，數據挖掘，機器學習，大數據平臺，大數據平臺應用開發，大數據可視化感興趣。博客：劉建平Pinard）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。