數據異常到底該如何檢測?(二)

有了之前的鋪墊和理論,本文就用一些現實中的實際數據進行一些具體的算法的應用。數據爲網絡訪問日誌文件,主要選擇了單位時間內的訪問請求次數與單位訪問中的動作數作爲二維特徵,並且便於可視化的顯示,下面分別進行三種異常算法嘗試:   1. K-means: 算法原理:根據特徵向量之間的距離度量進行無監督的訓練樣本聚類。選定聚類數K,隨機選擇初始點,並根據距離確定訓練數據點的聚類標籤,然後重新計算聚類中心,
相關文章
相關標籤/搜索