目的:對於無label數據,尋找異常數據html
孤立森林算法思想:算法
能夠看到d最有多是異常,由於其最先就被孤立(isolated)了測試
iForest算法默認參數設置以下:spa
subsample size: 256rest
Tree height: 8htm
Number of trees: 100blog
通俗解釋就是——建100棵iTree,每棵iTree最高8層,且每棵iTree都是獨立隨機選擇256個數據樣本建成遞歸
算法優缺點:ci
1)一般樹的數量越多,算法越穩定get
2)iForest不適用於特別高維的數據,因爲每次切數據空間都是隨機選取一個維度,建完樹後仍然有大量的維度信息沒有被使用,致使算法可靠性下降
論文下載:
http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/tkdd11.pdf
調包:
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html
轉載本博筆記須在文章明顯處註明原文的連接和做者信息
參考資料:
https://www.jianshu.com/p/5af3c66e0410?utm_campaign=maleskine