引入
本文 [ 1 ] \color{red}^{[1]} [1]貢獻:
1)提出了一種新的數據相關核,即隔離核 (Isolation kernel)。與已有的數據相關核相比,其無需使用或學習類別信息。
2)對隔離核的劃分機制進行評估,即劃分機制須要使得大隔離分區 (partition)位於稀疏區域 (region),小隔離分區位於密集區域。該性質要求隔離核:兩個點間距離相等的點,在稀疏區域應該更類似,相比於在密集區域。
3)說明了爲何隔離核可以適用於SVM,並提升預測精度。
4)與RBF、Laplacian、多核學習、距離度量學習進行比較。html
【1】Kai Ming Ting, Yue Zhu, and Zhi-Hua Zhou. 2018. Isolation Kernel and Its Effect on SVM. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '18). Association for Computing Machinery, New York, NY, USA, 2329–2337. DOI:https://doi.org/10.1145/3219819.3219990web
1 隔離核:定義
部分符號表以下:svg
符號 | 含義 |
---|---|
D = { x 1 , ⋯ , x n } , x i ∈ R d D = \{ \mathbf{x}_1, \cdots, \mathbf{x}_n \}, \mathbf{x}_i \in \mathbb{R}^d D={ x1,⋯,xn},xi∈Rd | 來自服從未知機率密度函數 x i \mathbf{x}_i xi~ F F F的樣本 |
H ψ ( D ) \mathcal{H}_\psi (D) Hψ(D) | 全部分區 (partition) H H H的集合 |
D ∈ D , ∣ D ∣ = ψ \mathcal{D} \in D, \mid D \mid = \psi D∈D,∣D∣=ψ | 隨機子集 |
θ ∈ H \theta \in H θ∈H | 隔離分區,將某一個點與 D \mathcal{D} D中其他點隔開 |
定義1.1. 給定任意兩個點 x , y ∈ R d \mathbf{x}, \mathbf{y} \in \mathbb{R}^d x,y∈Rd,其關於 D D D的隔離核被定義爲:在全部的分區 H H H上, x , y \mathbf{x}, \mathbf{y} x,y屬於相同隔離分區 θ \theta θ的指望:
K ψ ( x , y ∣ D ) = E H ψ ( D ) [ I ( x , y ∈ θ ∣ θ ∈ H ) ] (1) \tag{1} K_\psi (\mathbf{x}, \mathbf{y} \mid D) = \mathbb{E}_{\mathcal{H}_\psi (D)} \left[ \mathbb{I} (\mathbf{x}, \mathbf{y} \in \theta \mid \theta \in H) \right] Kψ(x,y∣D)=EHψ(D)[I(x,y∈θ∣θ∈H)](1)其中 I ( B ) \mathbb{I} (B) I(B)是一個指示函數:
I ( B ) = { 1 B is true ; 0 otherwise \mathbb{I} (B) = \left \{ \begin{matrix} 1 & B \text{ is true};\\ 0 & \text{otherwise} \end{matrix} \right. I(B)={
10B is true;otherwise 事實上,隔離核將經過有限數量的分區 H i ∈ H ψ ( D ) , i = 1 , ⋯ , t H_i \in \mathcal{H}_\psi (D), i = 1, \cdots, t Hi∈Hψ(D),i=1,⋯,t來計算:
K ψ ( x , y ∣ D ) = 1 t ∑ i = 1 t ( x , y ∈ θ ∣ θ ∈ H i ) (2) \tag{2} K_\psi (\mathbf{x}, \mathbf{y} \mid D) = \frac{1}{t} \sum{i = 1}^t (\mathbf{x}, \mathbf{y} \in \theta \mid \theta \in H_i) Kψ(x,y∣D)=t1∑i=1t(x,y∈θ∣θ∈Hi)(2)函數
引理1.2. K ψ ( x , y ∣ D ) K_\psi (\mathbf{x}, \mathbf{y} \mid D) Kψ(x,y∣D)是一個合法核 (證實見原論文)。學習
目前,假設 H H H可以達成貢獻 (2)中的要求。
令 X S \mathcal{X}_S XS和 X T \mathcal{X}_T XT分別表明稀疏和密集區域點的子集,則有機率密度 P ( X S ) < P ( X T ) P (\mathcal{X}_S) < P (\mathcal{X}_T) P(XS)<P(XT),且 ∥ x − y ∥ \| \mathbf{x} - \mathbf{y} \| ∥x−y∥表示兩點間的距離。spa
K ψ K_\psi Kψ的性質: ∀ x , y ∈ X S \forall \mathbf{x}, \mathbf{y} \in \mathcal{X}_S ∀x,y∈XS以及 ∀ x ′ , y ′ ∈ X T \forall \mathbf{x}', \mathbf{y}' \in \mathcal{X}_T ∀x′,y′∈XT,知足:
K ψ ( x , y ) > K ψ ( x ′ , y ′ ) (3) \tag{3} K_\psi (\mathbf{x}, \mathbf{y}) > K_\psi (\mathbf{x}', \mathbf{y}') Kψ(x,y)>Kψ(x′,y′)(3).net
1.1 劃分機制
隔離方法適用iForest [ 1 ] \color{red}^{[1]} [1]。下圖展現了拉普拉斯核、隔離核和RBF核在均勻密度分佈下的不一樣之處。
rest
【1】 Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Isolation forest. In Proceedings of the IEEE International Conference on Data Mining, pages 413–422, 2008.xml
1.2 均勻密度分佈下的 K ψ K_\psi Kψ
1.2.1 Breiman分析下的徹底隨機樹
Breiman [ 1 ] \color{red}^{[1]} [1]基於徹底隨機樹,其無需數據便可生成。對於樹深度 d ≥ 5 d \geq 5 d≥5且葉子節點數 T ≤ exp ( d / 2 ) T \leq \exp(d / 2) T≤exp(d/2),能夠獲得拉普拉斯核近似:
L ( x , y ) = exp ( − λ ∑ J = 1 d ∣ x J − y J ∣ ) (4) \tag{4} L (\mathbf{x}, \mathbf{y}) = \exp \left (- \lambda \sum_{J = 1}^d | \mathbf{x}_J - \mathbf{y}_J | \right) L(x,y)=exp(−λJ=1∑d∣xJ−yJ∣)(4)其中 x = < x 1 , ⋯ , x J , ⋯ , x d > \mathbf{x} = <x_1, \cdots, x_J, \cdots, x_d> x=<x1,⋯,xJ,⋯,xd>, λ \lambda λ決定核的銳度 (sharpness)。
均勻密度分佈時,上述核等價於iForest。htm
【1】Leo Breiman. Some infinity theory for predictor ensembles. Technical Report 577. Statistics Dept. UCB., 2000.
1.2.2 拉普拉斯核的新發現
令 ψ \psi ψ表示一個數據不相關徹底隨機樹的葉子節點數量,Breiman的分析代表:拉普拉斯核的 λ = log ( ψ ) d \lambda = \frac{\log(\psi)}{d} λ=dlog(ψ)。
故拉普拉斯核被從新表示爲:
(5) \tag{5} (5)
本文同步分享在 博客「因吉」(CSDN)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。