kd樹的構建以及搜索

時間 2019-12-09

標籤構建以及搜索简体版

原文原文鏈接

構建算法

k-d樹是一個二叉樹，每一個節點表示一個空間範圍。表1給出的是k-d樹每一個節點中主要包含的數據結構。

表1 k-d樹中每一個節點的數據類型

域名	數據類型	描述
Node-data	數據矢量	數據集中某個數據點，是n維矢量（這裏也就是k維）
Range	空間矢量	該節點所表明的空間範圍
split	整數	垂直於分割超平面的方向軸序號
Left	k-d樹	由位於該節點分割超平面左子空間內全部數據點所構成的k-d樹
Right	k-d樹	由位於該節點分割超平面右子空間內全部數據點所構成的k-d樹
parent	k-d樹	父節點

從上面對k-d樹節點的數據類型的描述能夠看出構建k-d樹是一個逐級展開的遞歸過程。表2給出的是構建k-d樹的僞碼。

表2 構建k-d樹的僞碼

算法：構建k-d樹（createKDTree）

輸入：數據點集Data-set和其所在的空間Range

輸出：Kd，類型爲k-d tree

1.If Data-set爲空，則返回空的k-d tree

2.調用節點生成程序：

（1）肯定split域：對於全部描述子數據（特徵矢量），統計它們在每一個維上的數據方差。以SURF特徵爲例，描述子爲64維，可計算64個方差。挑選出最大值，對應的維就是split域的值。數據方差大代表沿該座標軸方向上的數據分散得比較開，在這個方向上進行數據分割有較好的分辨率；

（2）肯定Node-data域：數據點集Data-set按其第split域的值排序。位於正中間的那個數據點被選爲Node-data。此時新的Data-set' = Data-set\Node-data（除去其中Node-data這一點）。

3.dataleft = {d屬於Data-set' && d[split] ≤ Node-data[split]}

Left_Range = {Range && dataleft} dataright = {d屬於Data-set' && d[split] > Node-data[split]}

Right_Range = {Range && dataright}

4.left = 由（dataleft，Left_Range）創建的k-d tree，即遞歸調用createKDTree（dataleft，Left_

Range）。並設置left的parent域爲Kd；

right = 由（dataright，Right_Range）創建的k-d tree，即調用createKDTree（dataright，Right_

Range）。並設置right的parent域爲Kd。

以上述舉的實例來看，過程以下：

因爲此例簡單，數據維度只有2維，因此能夠簡單地給x，y兩個方向軸編號爲0,1，也即split={0,1}。

（1）肯定split域的首先該取的值。分別計算x，y方向上數據的方差得知x方向上的方差最大，因此split域值首先取0，也就是x軸方向；

（2）肯定Node-data的域值。根據x軸方向的值2,5,9,4,8,7排序選出中值爲7，因此Node-data = （7,2）。這樣，該節點的分割超平面就是經過（7,2）並垂直於split = 0（x軸）的直線x = 7；

（3）肯定左子空間和右子空間。分割超平面x = 7將整個空間分爲兩部分，如圖2所示。x < = 7的部分爲左子空間，包含3個節點{（2,3），（5,4），（4,7）}；另外一部分爲右子空間，包含2個節點{（9,6），（8,1）}。

如算法所述，k-d樹的構建是一個遞歸的過程。而後對左子空間和右子空間內的數據重複根節點的過程就能夠獲得下一級子節點（5,4）和（9,6）（也就是左右子空間的'根'節點），同時將空間和數據集進一步細分。如此反覆直到空間中只包含一個數據點，如圖1所示。最後生成的k-d樹如圖3所示。

4查找算法

在k-d樹中進行數據的查找也是特徵匹配的重要環節，其目的是檢索在k-d樹中與查詢點距離最近的數據點。這裏先以一個簡單的實例來描述最鄰近查找的基本思路。

星號表示要查詢的點（2.1,3.1）。經過二叉搜索，順着搜索路徑很快就能找到最鄰近的近似點，也就是葉子節點（2,3）。而找到的葉子節點並不必定就是最鄰近的，最鄰近確定距離查詢點更近，應該位於以查詢點爲圓心且經過葉子節點的圓域內。爲了找到真正的最近鄰，還須要進行'回溯'操做：算法沿搜索路徑反向查找是否有距離查詢點更近的數據點。此例中先從（7,2）點開始進行二叉查找，而後到達（5,4），最後到達（2,3），此時搜索路徑中的節點爲<（7,2），（5,4），（2,3）>，首先以（2,3）做爲當前最近鄰點，計算其到查詢點（2.1,3.1）的距離爲0.1414，而後回溯到其父節點（5,4），並判斷在該父節點的其餘子節點空間中是否有距離查詢點更近的數據點。以（2.1,3.1）爲圓心，以0.1414爲半徑畫圓，如圖4所示。發現該圓並不和超平面y = 4交割，所以不用進入（5,4）節點右子空間中去搜索。

再回溯到（7,2），以（2.1,3.1）爲圓心，以0.1414爲半徑的圓更不會與x = 7超平面交割，所以不用進入（7,2）右子空間進行查找。至此，搜索路徑中的節點已經所有回溯完，結束整個搜索，返回最近鄰點（2,3），最近距離爲0.1414。

一個複雜點了例子如查找點爲（2，4.5）。一樣先進行二叉查找，先從（7,2）查找到（5,4）節點，在進行查找時是由y = 4爲分割超平面的，因爲查找點爲y值爲4.5，所以進入右子空間查找到（4,7），造成搜索路徑<（7,2），（5,4），（4,7）>，取（4,7）爲當前最近鄰點，計算其與目標查找點的距離爲3.202。而後回溯到（5,4），計算其與查找點之間的距離爲3.041。以（2，4.5）爲圓心，以3.041爲半徑做圓，如圖5所示。可見該圓和y = 4超平面交割，因此須要進入（5,4）左子空間進行查找。此時需將（2,3）節點加入搜索路徑中得<（7,2），（2,3）>。回溯至（2,3）葉子節點，（2,3）距離（2,4.5）比（5,4）要近，因此最近鄰點更新爲（2，3），最近距離更新爲1.5。回溯至（7,2），以（2,4.5）爲圓心1.5爲半徑做圓，並不和x = 7分割超平面交割，如圖6所示。至此，搜索路徑回溯完。返回最近鄰點（2,3），最近距離1.5。k-d樹查詢算法的僞代碼以下所示。

從root節點開始，DFS搜索直到葉子節點，同時在stack中順序存儲已經訪問的節點。
若是搜索到葉子節點，當前的葉子節點被設爲最近鄰節點。
而後經過stack回溯:

若是當前點的距離比最近鄰點距離近，更新最近鄰節點.

而後檢查以最近距離爲半徑的圓是否和父節點的超平面相交.

若是相交，則必須到父節點的另一側，用一樣的DFS搜索法，開始檢查最近鄰節點。

若是不相交，則繼續往上回溯，而父節點的另外一側子節點都被淘汰，再也不考慮的範圍中.
當搜索回到root節點時，搜索完成，獲得最近鄰節點。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。