Kd Tree算法詳解

時間 2020-05-25

標籤 tree 算法詳解简体版

原文原文鏈接

kd樹（k-dimensional樹的簡稱），是一種分割k維數據空間的數據結構，主要應用於多維空間關鍵數據的近鄰查找(Nearest Neighbor)和近似最近鄰查找(Approximate Nearest Neighbor)。node

1、Kd-tree

其實KDTree就是二叉查找樹（Binary Search Tree，BST）的變種。二叉查找樹的性質以下：
1）若它的左子樹不爲空，則左子樹上全部結點的值均小於它的根結點的值；
2）若它的右子樹不爲空，則右子樹上全部結點的值均大於它的根結點的值；
3）它的左、右子樹也分別爲二叉排序樹；
例如：
算法

若是咱們要處理的對象集合是一個K維空間中的數據集，咱們首先須要肯定是：怎樣將一個K維數據劃分到左子樹或右子樹？數組

在構造1維BST樹相似，只不過對於Kd樹，在當前節點的比較並非經過對K維數據進行總體的比較，而是選擇某一個維度d，而後比較兩個K維數據在該維度 d上的大小關係，即每次選擇一個維度d來對K維數據進行劃分，至關於用一個垂直於該維度d的超平面將K維數據空間一分爲二，平面一邊的全部K維數據在d維度上的值小於平面另外一邊的全部K維數據對應維度上的值。也就是說，咱們每選擇一個維度進行如上的劃分，就會將K維數據空間劃分爲兩個部分，若是我們繼續分別對這兩個子K維空間進行如上的劃分，又會獲得新的子空間，對新的子空間又繼續劃分，重複以上過程直到每一個子空間都不能再劃分爲止。以上就是構造 Kd-Tree的過程，上述過程當中涉及到兩個重要的問題：數據結構

每次對子空間的劃分時，怎樣肯定在哪一個維度上進行劃分；
在某個維度上進行劃分時，怎樣確保創建的樹儘可能地平衡，樹越平衡表明着分割得越平均，搜索的時間也就是越少。

一、在哪一個維度上進行劃分？
一種選取軸點的策略是median of the most spread dimension pivoting strategy，統計樣本在每一個維度上的數據方差，挑選出對應方差最大值的那個維度。數據方差大說明沿該座標軸方向上數據點分散的比較開。這個方向上，進行數據分割能夠得到最好的平衡。
二、怎樣確保創建的樹儘可能地平衡？
給定一個數組，怎樣才能獲得兩個子數組，這兩個數組包含的元素個數差很少且其中一個子數組中的元素值都小於另外一個子數組呢？方法很簡單，找到數組中的中值（即中位數，median），而後將數組中全部元素與中值進行比較，就能夠獲得上述兩個子數組。一樣，在維度d上進行劃分時，劃分點（pivot）就選擇該維度d上全部數據的中值，這樣獲得的兩個子集合數據個數就基本相同了。3d

2、Kd-Tree的構建

1）、在K維數據集合中選擇具備最大方差的維度k，而後在該維度上選擇中值m爲pivot對該數據集合進行劃分，獲得兩個子集合；同時建立一個樹結點node，用於存儲；
2）、對兩個子集合重複（1）步驟的過程，直至全部子集合都不能再劃分爲止；rest

舉個例子：
假設有6個二維數據點{（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）}，數據點位於二維空間內（以下圖中黑點所示）。kd樹算法就是要肯定圖1中這些分割空間的分割線（多維空間即爲分割平面，通常爲超平面）。下面就要經過一步步展現kd樹是如何肯定這些分割線的。
對象

分別計算x，y方向上數據的方差，得知x方向上的方差最大；
根據x軸方向的值2,5,9,4,8,7排序選出中值爲7，因此該node中的data = （7,2）。這樣，該節點的分割超平面就是經過（7,2）並垂直於x軸的直線x = 7；
肯定左子空間和右子空間。分割超平面x = 7將整個空間分爲兩部分，以下圖所示。x < = 7的部分爲左子空間，包含3個節點{（2,3），（5,4），（4,7）}；另外一部分爲右子空間，包含2個節點{（9,6），（8,1）}。

k-d樹的構建是一個遞歸的過程。而後對左子空間和右子空間內的數據重複根節點的過程就能夠獲得下一級子節點（5,4）和（9,6）（也就是左右子空間的'根'節點），同時將空間和數據集進一步細分。如此反覆直到空間中只包含一個數據點，以下圖所示：

3、Kd-Tree的最近鄰查找

（1）將查詢數據Q從根結點開始，按照Q與各個結點的比較結果向下訪問Kd-Tree，直至達到葉子結點。
其中Q與結點的比較指的是將Q對應於結點中的k維度上的值與中值m進行比較，若Q(k) < m，則訪問左子樹，不然訪問右子樹。達到葉子結點時，計算Q與葉子結點上保存的數據之間的距離，記錄下最小距離對應的數據點，記爲當前最近鄰點nearest和最小距離dis。
（2）進行回溯操做，該操做是爲了找到離Q更近的「最近鄰點」。即判斷未被訪問過的分支裏是否還有離Q更近的點，它們之間的距離小於dis。
若是Q與其父結點下的未被訪問過的分支之間的距離小於dis，則認爲該分支中存在離P更近的數據，進入該結點，進行（1）步驟同樣的查找過程，若是找到更近的數據點，則更新爲當前的最近鄰點nearest，並更新dis。
若是Q與其父結點下的未被訪問過的分支之間的距離大於dis，則說明該分支內不存在與Q更近的點。
回溯的判斷過程是從下往上進行的，直到回溯到根結點時已經不存在與P更近的分支爲止。
注：判斷未被訪問過的樹分支中是否還有離Q更近的點，就是判斷"Q與未被訪問的樹分支的距離|Q(k) - m|"是否小於"Q到當前的最近鄰點nearest的距離dis"。從幾何空間上來看，就是判斷以Q爲中心，以dis爲半徑超球面是否與未被訪問的樹分支表明的超矩形相交。
下面舉兩個例子來演示一下最近鄰查找的過程。
假設咱們的kd樹就是上面經過樣本集{（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）}建立的。

例1：查找點Q(2.1,3.1)
以下圖所示，紅色的點即爲要查找的點。經過圖4二叉搜索，順着搜索路徑很快就能找到當前的最鄰近點（2,3）。

在上述搜索過程當中，產生的搜索路徑節點有<（7,2），（5,4），（2,3）>。爲了找到真正的最近鄰，還須要進行'回溯'操做，首先以（2,3）做爲當前最近鄰點nearest，計算其到查詢點Q（2.1,3.1）的距離dis爲0.1414，而後回溯到其父節點（5,4），並判斷在該父節點的其餘子節點空間中是否有距離查詢點Q更近的數據點。以（2.1,3.1）爲圓心，以0.1414爲半徑畫圓，如圖6所示。發現該圓並不和超平面y = 4交割，即這裏：|Q(k) - m|=|3.1 - 4|=0.9 > 0.1414，所以不用進入（5,4）節點右子空間中去搜索。

再回溯到（7,2），以（2.1,3.1）爲圓心，以0.1414爲半徑的圓更不會與x = 7超平面交割，所以不用進入（7,2）右子空間進行查找。至此，搜索路徑中的節點已經所有回溯完，結束整個搜索，返回最近鄰點（2,3），最近距離爲0.1414。blog

例2：查找點Q(2,4.5)
以下圖所示，一樣通過圖4的二叉搜索，可得當前的最鄰近點（4,7），產生的搜索路徑節點有<（7,2），（5,4），（4,7）>。首先以（4,7）做爲當前最近鄰點nearest，計算其到查詢點Q（2,4.5）的距離dis爲3.202，而後回溯到其父節點（5,4），並判斷在該父節點的其餘子節點空間中是否有距離查詢點Q更近的數據點。以（2,4.5）爲圓心，覺得3.202爲半徑畫圓，如圖7所示。發現該圓和超平面y = 4交割，即這裏：|Q(k) - m|=|4.5 - 4|=0.5 < 3.202，所以進入（5,4）節點右子空間中去搜索。因此，將(2,3)加入到搜索路徑中，如今搜索路徑節點有<(7,2), (2, 3)>。同時，注意：點Q(2,4.5)與父節點(5,4)的距離也要考慮，因爲這兩點間的距離3.04 < 3.202，因此將(5,4)賦給nearest，而且dist=3.04。

接下來，回溯至（2,3）葉子節點，點Q（2,4.5）和（2,3）的距離爲1.5，比距離（5,4）要近，因此最近鄰點nearest更新爲(2,3)，最近距離dis更新爲1.5。回溯至（7,2），如圖8所示，以（2,4.5）爲圓心1.5爲半徑做圓，並不和x = 7分割超平面交割，即這裏：|Q(k) - m|=|2 - 7|=5 > 1.5。至此，搜索路徑回溯完。返回最近鄰點（2,3），最近距離1.5。
排序