SURF算法的一篇翻譯與論證

時間 2019-11-13

標籤 surf 算法一篇翻譯論證简体版

原文原文鏈接

原文地址：http://www.sohu.com/a/157742015_715754

SURF: Speeded Up Robust Features

摘要算法

本文提出了一種新型的具備尺度和旋轉不變特性的興趣點檢測和描述方法，簡稱爲SURF（Speeded Up Robust Features）。在可重複性、獨特性和魯棒性方面，與前人提出的方法相比，該方法性能接近甚至更好，但其計算和匹配的速度更快。數據庫

該方法得以實現，是依賴於用積分圖像來計算圖像卷積，創建在現有的先進檢測和描述算子（基於Hessian矩陣的檢測算子，基於分佈特性的描述算子）的基礎上，並將這些方法進行簡化，只保留必要的部分。該方法是將新型的檢測、描述和匹配步驟組合在一塊兒而獲得。本文給出了該方法應用於一個標準測試集的實驗結果，以及針對現實生活中物體識別應用的實驗結果。兩種情形下，SURF都表現良好。api

1 簡介app

尋找兩幅圖像相同場景或物體的興趣點，是不少計算機視覺應用領域的一個組成部分，例如照相機標定、三維重建、圖像配准以及物體識別等。本文的任務就是搜索不一樣圖像中的興趣，能夠分紅三個主要的步驟。第一，選擇圖像中特殊的位置點做爲興趣點，如角點、斑點、T形鏈接點（T-junction）。興趣點檢測最重要的性質是可重複性，即在不一樣的觀察條件下，可否可靠地找到相同的興趣點。第二，每一個興趣點的鄰域用一個特徵向量表示。這個描述算子必須是獨特的，同時對噪聲、錯誤的檢測點、幾何和亮度變化是魯棒的。最後，描述向量在不一樣的圖像之間進行匹配。匹配一般是基於向量之間的距離，如Mahalanobis或Euclidean距離。描述向量的維度對匹配的計算時間有重要影響，因此但願減少描述向量的維度。ide

咱們的目標是開發出一種檢測和描述算子，與現有的方法相比，計算更快但又不犧牲性能。爲了實現目標，必需要妥善的處理上述要求，好比減少描述向量的維度和複雜度，同時又要保持足夠的獨特性。函數

參考文獻[1-6]提出了大量的檢測和描述方法。文獻[7-9]給出了這些算法做用於標準數據集的詳細的比較和評估。咱們開發快速的檢測和描述算子時，從前人的工做中獲得一些概念，總結出了對算法性能有影響的一些因素。在咱們基於標準數據集以及現實生活中物體識別的實驗中，檢測和描述算法不只速度更快，且獨特性更好，可重複性也沒有減小。性能

在處理局部特徵時，首先須要明確的問題是對不變性水平的要求。很明顯，這取決於幾何和光照變化程度，而它們又取決於拍照條件的變化。咱們關注具備尺度和旋轉不變性的檢測算子和描述算子。這樣能夠在特徵的複雜度和對常見變形的魯棒性之間，找到了一個很好的妥協辦法。偏斜（skew）、不等比變形和透視效應被認爲是二階的效應爲了進一步提升描述子的魯棒性可能須要處理這些二階效應。 Lowe[2]也提到，處理徹底的仿射不變性增長的複雜性一般會對魯棒性產生負面影響，而且這麼作是不值得的，除非真的要處理很是大的視角變化。在某些狀況下，甚至能夠不考慮旋轉不變性，檢測算子退化成只考慮尺度不變的版本，咱們把它叫作‘upright SURF’（U-SURF）。確實，在不少應用場景下，例如移動機器人導航或者遊客視覺引導，照相機僅僅繞垂直軸旋轉。在這種情形下，徹底不考慮旋轉不變性不只能加快計算速度，同時能增長識別能力。對於圖像的亮度變化，咱們定義了一種關於變化因數和偏移量的線性模型。須要注意的是咱們的檢測和描述算子都沒有使用顏色信息。測試

本文的結構以下，第2部分介紹相關的工做，這些構成咱們算法的基礎；第3部分介紹興趣點檢測算法；第4部分介紹新型的描述算子；第5部分展現實驗結果；第6部分是對全文的總結。優化

2 相關工做lua

興趣點檢測使用最普遍的檢測算法應該是Harris角點檢測[10]，最先在1988年提出，它是基於二階矩構成的矩陣的特徵值。然而Harris角點檢測不是尺度不變的。Lindeberg提出了一種自動選擇尺度的概念[1]。這樣就可使用每一幅圖像自有的特徵尺度來檢測興趣點。他用Hessian矩陣的行列式值和Laplacian作實驗檢測斑點狀結構，其中Laplacian是Hessian矩陣的跡（即主對角線之和）。Mikolajczyk和Schmid對這個方法進行了改進，他們把Harris-Laplace和Hessian-Laplace結合在一塊兒[11]，創造出了一種魯棒的、尺度不變、重複檢測率很高的檢測算子。他們使用尺度自適應的Harris度量標準，或者Hessian矩陣的行列式值來選擇位置，使用Laplacian來選擇尺度。爲了提升計算速度，Lowe[12]使用高斯差分（DoG）來近似高斯Laplace（LoG）。

學者們還提出了不少其餘的尺度不變的興趣點檢測算子。Kadir和Brady[13]提出的重點區域檢測（salient region detector）是其中的一個例子，該方法最大化區域內的熵。Jurie等[14]提出了基於邊緣的區域檢測算子。可是這些方法彷佛都不太容易加快計算速度。也有學者提出了仿射不變的特徵檢測算子，可以應對更大的視角變化。可是，這超出了本文研究的範圍。

經過研究現有的檢測算子，以及關於它們之間比較的文獻[15,8]，咱們得出瞭如下結論：

（1）基於Hessian矩陣的檢測算子比基於Harris的檢測算子要穩定，且重複檢測率更高。使用Hessian矩陣的行列式值比使用它的跡（Lapacian）更有優點，由於在細長的、局部不均勻的結構檢測時失敗的機率較低。

（2）相似DoG的近似會提升計算速度，且精度不會犧牲太多。

特徵描述人們提出了更多種類的特徵描述算子，例如高斯微分[16]，不變矩[17]，複數特徵（complex features）[18,19]，可控濾波器（steerable filters）[20]，基於相位的局部特徵[21]，和表示興趣點的鄰域內較小尺度的特徵的分佈的特徵算子。Lowe[2]提出的方法，也就是前面提到的最後一種，比其餘的方法性能更好[7]。能夠這麼來解釋，該方法描述了大量圖像強度在空間分佈的信息，同時也會對小變形和定位偏差比較魯棒。這種檢測算子[2]，簡稱爲SIFT，計算興趣點鄰域內梯度幅值的直方圖，保存在一個128維的向量中（8個方向對每一個4×4的位置分區內）。

基於SIFT提出了不少改進的算法。Ke和Sukthankar[4]將PCA應用於梯度圖像。這種PCA-SIFT方法，獲得一個36維的描述向量，匹配速度更快。可是在Mikolajczyk等[8]的第二個比較研究中，證明它比SIFT的獨特性要差，且計算特徵向量的時間較長，減弱了快速匹配帶來的改進效果。在同一篇文章中[8]，做者提出了SIFT的一個變種，叫作GLOH，使用相同維度的描述算子，獨特性比SIFT更好。然而，GLOH計算代價更高。

在實際應用中，SIFT描述算子彷佛仍然是最吸引人的描述算子，因此目前使用也最普遍。它的獨特性較好，而且相對來講計算速度較快，這對在線應用場景極其重要。最近，Se等[22]在FPGA上實現了SIFT，將其速度提升了一個數量級。然而在匹配階段，SIFT描述向量較大的維度是它的一個缺點。對於普通PC機上的在線應用，檢測、描述、匹配，這三個步驟的計算速度仍然都須要加快。Lowe提出了一種最優節點優先算法（best-bin-first）[2]，提升了匹配計算的速度，但會致使精度有所下降。

本文的方法本文提出了一種新型的檢測-描述算法，簡稱爲SURF（Speed-Up Robust Features）。檢測算子是基於Hessian矩陣[11,1]，可是使用了很是基礎的近似，就像DoG[2]是一個很是基礎的基於Laplacian的檢測算子。SURF依賴於積分圖像以減小計算時間，所以咱們叫它‘Fast-Hessian’檢測算子。另外一方面，描述算子描述了興趣點鄰域內Haar小波響應的分佈特性。咱們再一次利用積分圖像計算小波響應，以加快計算速度。同時，僅使用64維向量，較少特徵向量及其匹配的計算時間，但同時又提升了魯棒性。咱們也提出了一種基於Laplacian符號的新的索引方法，這樣不只提升了匹配的速度，也提升了描述算子的魯棒性。

爲了提升本文的獨立可閱讀性，下面簡潔地介紹積分圖像的概念，它是在文獻[23]被定義的。積分圖像可以快速實現盒狀濾波器的卷積運算（box type convolution）。積分圖像在點

的值是輸入圖像I在點x和原點組成的矩形區域內全部像素點的和，。計算出以後，僅須要額外的四步就可計算出任何垂直的矩形區域內的像素強度之和，與該矩形區域的尺寸大小無關。

3. 快速海森檢測（Fast-Hessian Detector）

本文的檢測算法基於Hessian矩陣，由於它的計算速度和精度都較好。然而，咱們沒有針對位置和尺度的選擇使用不一樣的標準（Hessian-Laplace檢測算子是這麼作的[11]），而是選擇Hessian矩陣的特徵值同時做爲位置和尺度選擇的標準。

給定圖像I上的一個像素點,給定尺度後x點的Hessian矩陣按下式定義

式中是Gaussian二階偏微分

與圖像I的卷積在x點的值，其餘兩項和與此相似。

對於尺度空間的分析，高斯卷積是最佳的，文獻[24]給出解釋。然而在實踐中，Gaussian須要進行離散和裁剪（圖1左半部分），即便使用Gaussian濾波器，只要對獲得的圖像進行降採樣混疊仍會發生。下降分辨率時不會有新的結構出現，這一性質的一維狀況已經獲得證實，可是人們廣泛知道推廣到二維時並不成立[25]。在這點上來講，高斯核好像被某種程度的高估了，所以咱們測試了一個更簡單的可選方案。因爲高斯濾波器不是在全部狀況下都是理想的，而且考慮到Lowe's近似計算LoG所取得的成功，咱們使用盒子濾波器（圖1的右半部分）對LoG 作更進一步的近似。這些盒子濾波器近似代替Gausian核的二階微分，利用積分圖像能夠快速計算獲得卷積結果，而且速度與濾波器的尺寸無關。從結果展現部分5可看出，其性能與使用通過離散和裁剪的高斯核是至關的。

圖1給出的9×9盒子濾波器是=1.2的高斯核的二階微分的近似，以此做爲咱們最小的尺度（即最高的空間分辨率）。用，和表示近似值。矩形區域內各點的權重比較簡單以保證高的計算效率，可是須要進一步修正Hessian矩陣行列式計算表達式各項的權重，

，其中是Frobenius範數。所以行列式的最終計算式爲

而後濾波以後的結果用濾波器的尺寸進行歸一化，這樣就保證了對不一樣的濾波器尺寸，Frobenius範數的結果相同。

圖1 從左至右：通過離散和裁剪的Gaussian二階偏微分在y向和xy方向，咱們使用盒子濾波器對它們的近似，灰色的區域值爲0。

尺度空間一般表示成圖像金字塔。圖像被一個高斯濾波器反覆平滑，而且爲了獲得金字塔的更高層被連續降採樣。因爲使用了盒子濾波器和積分圖像，不須要使用相同的濾波器依次做用於上次獲得的圖像，而是使用任意尺寸的這種濾波器以徹底相同的速度做用於原始圖像，甚至能夠作到並行計算（雖然本文尚未使用並行計算）。所以，尺度空間經過增大濾波器的尺寸進行分析，而不是依次縮小圖像的尺寸。上文的9×9濾波器的結果做爲尺度空間的第一層，咱們將其記作尺度（與的高斯微分相對應）。尺度空間接下來的層，經過逐漸增大濾波器的尺寸獲得，考慮到積分圖像的離散特性和濾波器特殊的結構。濾波器的尺寸能夠爲9×9，15×15，21×21，27×27等。尺度較大時，相鄰兩個濾波器的尺寸增量也相應地增大。所以，對每個新的組（octave），濾波器尺寸的增量是加倍的（從6到12，再到24）。同時，尋找興趣點時的採樣間隔也可加倍。

因爲通過放大以後，不一樣濾波器尺寸的比值保持一致，近似Gaussian微分的尺度也相應的放大。例如，咱們27×27的濾波器至關於Gaussian微分下采樣。另外，不一樣濾波器尺寸下Frobenius範數保持不變，它們已經被進行了相對於尺度的歸一化[26]。

爲了在圖像空間和尺度空間上定位興趣點，在3×3×3鄰域內使用了非最大值抑制。Hessian矩陣特徵值的最大值，在尺度和圖像空間內，使用Brown提出的方法進行插值。在咱們的方法中，尺度空間的插值尤爲重要，由於每個組中第一層的尺度差別相對較大。圖2左圖給出了一個使用‘Fast-Hessian’檢測算子檢測獲得興趣點的例子。

圖2 左邊：一幅太陽花圖片的興趣點檢測結果。這種場景很清楚的展現了基於Hessian矩陣的檢測方法的性質。中間：SURF使用的Haar小波類型。右邊：Graffiti場景中不一樣尺度下的描述窗口。

4 SURF描述算子

與其餘描述算子相比，SIFT性能明顯更好[8]。它將粗略的位置信息（crudely localised information）與基於梯度分佈的特徵結合在一塊兒，在去除因爲尺度和空間變化形成的定位偏差時，能獲得良好的獨特性。使用相對強度和梯度方向能減少光照度變化的影響。

本文提出的SURF描述算子基於類似的性質，但進一步下降複雜度。第一步是在興趣點周圍的一個圓形鄰域內，創建一個可重複肯定的方向。而後基於該方向創建一個矩形區域，從中提取出SURF的描述算子。下面將依次介紹這兩個步驟。咱們還提出了一個簡化版本的描述算子（U-SURF），它不具備旋轉不變性，所以計算速度更快，更加適用於照相機基本保持水平的場合。

4.1 方向肯定（Orientation Assignment）

爲了作到旋轉不變性，咱們給興趣點定義一個可重複的主方向。爲了達到這個目的，咱們首先計算x和y方向的Haar小波響應，如圖2所示，這是在興趣點周圍半徑6s的圓形鄰域內進行的，s是該興趣點的尺度。採樣間隔也與尺度相關聯，選爲s。一樣的，計算小波響應時也是和當前尺度有關，也被選爲s。大尺度下小波的尺度也相應地增大。所以，咱們又一次使用積分圖像以實現快速濾波。任何尺寸下只須要六步計算，就可獲得x或y方向的小波響應。小波的邊長（side length）是4s。

計算出小波響應後，使用中心在興趣點的高斯函數（）進行加權，響應用一個向量來表示，水平方向響應沿着橫座標，垂直方向響應沿着縱座標。主方向的肯定方法是，計算一個60°角的旋轉扇形窗口內響應的總和。對窗口內水平和垂直方向的小波響應分別進行求和。這兩個加和響應構成一個新的向量。這種向量中最長的表明該興趣點的方向。滑動窗口的尺寸是一個參數，經過實驗的方法進行選擇。尺寸太小在單個主小波響應時會失敗，尺寸過大獲得向量長度的最大值是不典型的。兩種狀況下興趣區的方向都會不穩定。須要注意的是U-SURF省略了這個步驟。

4.2 描述份量（Deor Components）

爲了獲得描述向量，第一步是在興趣點周圍以其爲中心創建一個矩形區域，方向沿着上文獲得的興趣點的主方向。對於upright版本，這種轉換是不須要的。矩形區域的邊長是20s，圖2給出了這種矩形區域的例子。

把矩形區域規則地分解爲4×4個小的子區域，子區域中保留重要的空間信息。對於每個子區域，咱們在規則的5×5的空間採樣點上計算一些簡單的特徵。爲簡單起見，用dx表示在水平方向的Haar小波響應，用dy表示垂直方向的響應（濾波器的尺寸是2s）。這裏的水平和垂直是根據上文選擇的興趣點的主方向定義的。

爲了增長對幾何變形和定位偏差的魯棒性，dx和dy首先會用一箇中心在興趣點的高斯函數（）進行加權。

而後，小波響應dx和dy在每個子區域內進行加和，造成了特徵向量的第一個集合。爲了考慮圖像強度變化的極性（方向），咱們也計算響應量的絕對值|dx|與|dy|的加和。所以，每個子區域內用一個四維的描述向量v來描述其強度變化模式，。全部的4×4個子區域內的描述向量組合在一塊兒構成了64維描述向量。小波響應對光照的變化（偏移）是不變的。將描述向量歸一化爲單位向量能夠實現對比度不變。

圖3給出了三種徹底不一樣的圖像強度模式下，子區域內描述算子的特性。能夠將這種局部的強度模式進行組合，獲得各類特殊的描述算子。

圖3 幾種子區域描述算子的類型，表明基本的亮度模式的性質。左邊：表示區域內灰度值相近的狀況，四個值都相對較低。中間：表示x方向的頻率變化，的值較大，其他的值都很小。右邊：x方向的強度逐漸增長，和的值都很大。

爲了獲得SURF的描述算子，咱們實驗了使用較少和較多的小波特徵的方法，如使用dx⊃2;和dy⊃2;，高階小波變換，PCA，中值，均值等等。經過全面的評估，發現上文給出的方法性能最好。而後咱們又改變採樣點和子區域的數目。4×4的子區域分割方法被證明是最好的。由於更細小的劃分會下降魯棒性，而且會顯著增長匹配的時間。另外一方面，使用3×3的子區域獲得的較低維的描述向量（SURF-36）性能較差，可是匹配的速度快，與文獻中其餘的描述算子相比仍然是可接受的。圖4給出了一小部分比較結果（SURF-128在下文有簡單介紹）。

圖4 recall vs. 1-precision曲線圖，不一樣的binning方法及兩種不一樣的匹配技術，測試的圖像序列是‘Graffiti’（第1和第3幅圖），兩幅圖有30度的視角變化，與現有描述算子進行比較。這些興趣點都是使用咱們的’Fast Henssian’檢測算子獲得的。須要注意，興趣點不是仿射不變的，所以圖中的結果與[8]中的結果沒有可比性。SURF-128表示擴展版本的描述算子。左邊：基於類似度閾值的匹配技術，右邊：基於最近鄰比率的匹配策略（見第5部分）。

咱們也測試了另外一個版本的SURF描述算子，增長了一些與以前相似的特徵（SURF-128）。它仍然使用了與以前相同的加和，可是進一步對這些加和進行分解。dx和|dx|的加和根據dy<0和dy≥0分紅兩部分進行計算。相似的，dy和|dy|根據dx的符合分開進行加和，所以描述特徵的數量加倍。這種描述算子獨特性更好，而且計算速度不會慢不少，可是由於維度的增長，匹配時速度會慢不少。

圖4中，基於標準的‘Graffiti’場景比較參數的選擇，‘Graffiti’是標準評估數據集Mikolajczyk[8]中最具挑戰性的場景，因爲它包含了平面外的轉動、平面內的轉動以及亮度的變化。4×4子區域的擴展版本SURF-128表現最好。SURF性能好且計算速度更快，這兩方面都比現有的描述算子優秀。

在匹配階段爲了快速索引，興趣點的Laplacian的符號（即Hessian矩陣的跡）能夠考慮進來。一般興趣點在斑點狀的結構附近發現。Laplacian的符號能夠區分亮的斑點暗的背景和它的相反狀況（即暗的斑點亮的背景）。Laplacian的符號不須要花費額外的計算量，由於在檢測階段已經計算獲得。在匹配階段，咱們僅匹配具備相同類型對比度的特徵（即Laplacian符號相同的特徵點）。所以，這個簡單的信息能夠加快匹配的速度，對算法的性能有稍微的提高。

5 實驗結果

首先咱們給出基於一個標準數據集的實驗結果，來評估檢測和描述算子。而後討論應用於現實生活中物體識別的實驗結果。全部參與比較的檢測和描述算子都是做者以前實現的。

標準數據集咱們使用Mikolajczyk[1]提供的圖像序列和測試軟件，來測試本身的檢測和描述算子。這是一些有紋理和結構的現實場景的照片。因爲篇幅的限制，咱們不會介紹對全部圖像序列的實驗結果。對於檢測算子的比較，咱們選擇兩個視角變化的序列（Graffiti和Wall），一個縮放和旋轉變化序列（Boat），光線變化序列（Leuven）（分析結果將在下文Fig.6中進行討論）。描述算子做用於除Bark外的全部序列（圖4和圖7）。

在評價檢測算子時，咱們使用[9]中提出的可重複分數作爲指標。這個指標的意義是，兩幅圖像中都能檢測到的興趣點的數目，與總共能檢測到的最少興趣點的數目的比值（只考慮在兩幅圖像中均可見的興趣點）。

做爲比較的檢測算子包括Lowe[2]的高斯差分檢測算子（DoG）、Mikolajczyk[15]提出的Harris-Laplace和Hessian-Laplace算子。平均意義上來講，全部檢測算子檢測到的興趣點數目至關。這個結論適用於所用的圖像，包括在物體識別實驗中要到的數據庫中的圖像，表1給出一個示例。能夠看出咱們的Fast-Hessian檢測器計算速度比DOG快三倍，比Hessian-Laplace快5倍。同時，對Graffiti、Leuven和Boats圖像序列，咱們檢測器的重複率與對比算法差很少，針對Wall圖像序列重複率甚至更好。須要注意的是Graffiti和Wall圖像序列，包括了平面外的旋轉，致使了仿射變形，然而參與比較的檢測算子都只具備旋轉和尺度不變性。所以，爲了應對仿射變形，必須提升檢測算子總體的魯棒性。

表1 閾值，檢測到的興趣點的數目，檢測花費的計算時間（使用Graffiti場景的第一幅圖像，分辨率800×640）

描述算子用recall-(1-precision)曲線圖來評價，與文獻[4]和[8]相似。每次評價，咱們使用圖像序列中的第1和第4幅圖像，可是有兩個例外：Graffiti序列使用第1和第3幅圖像，它們有30°的視角變化；Wall序列使用第1和第5幅圖像，它們有50°的視角變化。在圖4和圖7中，比較了咱們的SURF描述算子與GLOH、SIFT、PCA-SIFT的性能差別，都是基於咱們的‘Fast-Hessian’檢測算子獲得的興趣點。幾乎在全部的比較中，SURF的表現都優於其餘的描述算子。圖4給出了使用兩種不一樣匹配技術的比較結果，一個是基於類似度閾值，一個是基於最近鄰比率（這兩種的技術的介紹參見文獻[8]）。匹配技術對檢測器優劣的排名沒有影響，SURF在兩種情形下都是最好的。因爲篇幅的限制，僅在圖7中給出基於類似度閾值匹配技術的實驗結果，由於這種技術更加適合表達檢測算子在其特徵空間的分佈狀況，而且使用的更加普遍。

圖6 不一樣圖像序列的可重複率的分數，從左到右，從上到下，分別是Wall和Graffiti（視角變化），Leuven（亮度變化），Boat（縮放和旋轉）。

SUFT描述算子性能徹底優於其餘，有時對一樣精度的圖形進行檢索，甚至會有10%的性能提高。同時計算速度很快，如表2所示。第4部分介紹的精確版本的描述算子SURF-128，結果比常規的SURF效果稍好，可是匹配的速度要慢一些，所以在依賴計算速度的應用場景不太適用。

表2 檢測-描述花費的總時間，測試圖像是Graffiti序列的第一幅圖像。閾值是可自適應調整的，以保證全部方法檢測到的興趣點數目相同。表中的相對速度對其餘圖像也具備表明性。

須要指出的是，整篇文章中，包括下文物體識別的實驗，咱們都使用相同的參數和閾值（如表1所示）。文中給出的計算時間都是基於標準的Linux PC（Pentium IV，3GHz）。

圖7 Recall-(1-Precision)的曲線圖，從左到右，從上到下，分別是50度的視角變化（Wall），放大2倍（Boat），圖像模糊（Bikes和Trees），亮度變化（Leuven），JPEG壓縮（Ubc）。

物體識別咱們也在一個實際的應用場景下測試算法的特性，目標是在一個博物館裏進行物體的識別。這個數據庫包含216幅照片，22個物體。這216幅照片在不一樣的條件下拍攝，包括極端的光照變化、物體位於反光玻璃罩內、視角變化、縮放、不一樣的相機質量等。此外，照片的尺寸較小（320×240），所以給識別增長了難度，由於丟失了不少細節。

爲了在數據庫中進行物體識別，咱們按照以下流程進行。測試集的圖像與參考集中全部圖像進行比較，比較它們各自的興趣點。參考數據集中與測試數據集，興趣點匹配數目最多的物體被認爲是識別出來的物體。

匹配過程以下。測試數據集中的一個興趣點與參考數據集中的一個興趣點進行比較，計算它們描述向量的Euclidean距離。當它們之間的距離小於0.7倍的第二近的距離時，認爲檢測出一個匹配對。這就是最近鄰比率匹配策略[18,2,7]。很顯然，附加的幾何約束能夠減少錯誤的正向匹配的影響，而且能夠用於在任何的匹配策略。然而對比較問題而言，幾何約束沒有意義，由於可能會掩蓋掉基礎算法的某些缺陷。平均識別率反映了算法性能比較的結果。表現最好的是SURF-128，識別率爲85.7%；而後是U-SURF（83.8%），SURF（82.6%）。其餘的描述算子識別率分別爲78.3%（GLOH），78.1%（SIFT），72.3%（PCA-SIFT）。

圖5 給出一個例子，左側是參考圖像，右側是測試圖像，注意觀察二者在視角和顏色上的不一樣。

6 結論

本文提出了一種快速且性能良好的興趣點檢測和描述算法，在計算速度和準確性方面都優於目前存在的算法。描述算子很容易擴展爲仿射不變性。接下來的工做是優化代碼，進一步提升運算速度。最新的版本可在網上找到[1]。

參考文獻

(藍色區域滑動瀏覽所有文獻)

1. Lindeberg, T.: Feature detection with automatic scale selection. IJCV 30(2)

(1998) 79 – 116

2. Lowe, D.: Distinctive image features from scale-invariant keypoints, cascade filter-

ing approach. IJCV 60 (2004) 91 – 110

3. Mikolajczyk, K., Schmid, C.: An affine invariant interest point detector. In: ECCV.

(2002) 128 – 142

4. Ke, Y., Sukthankar, R.: PCA-SIFT: A more distinctive representation for local

image deors. In: CVPR (2). (2004) 506 – 513

5. Tuytelaars, T., Van Gool, L.: Wide baseline stereo based on local, affinely invariant

regions. In: BMVC. (2000) 412 – 422

6. Matas, J., Chum, O., M., U., Pajdla, T.: Robust wide baseline stereo from maxi-

mally stable extremal regions. In: BMVC. (2002) 384 – 393

7. Mikolajczyk, K., Schmid, C.: A performance evaluation of local deors. In:

CVPR. Volume 2. (2003) 257 – 263

8. Mikolajczyk, K., Schmid, C.: A performance evaluation of local deors. PAMI

27 (2005) 1615–1630

9. Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffal-

itzky, F., Kadir, T., Van Gool, L.: A comparison of affine region detectors. IJCV

65 (2005) 43–72

10. Harris, C., Stephens, M.: A combined corner and edge detector. In: Proceedings

of the Alvey Vision Conference. (1988) 147 – 151

11. Mikolajczyk, K., Schmid, C.: Indexing based on scale invariant interest points. In:

ICCV. Volume 1. (2001) 525 – 531

12. Lowe, D.: Object recognition from local scale-invariant features. In: ICCV. (1999)

13. Kadir, T., Brady, M.: Scale, saliency and image deion. IJCV 45(2) (2001)

83 – 105

14. Jurie, F., Schmid, C.: Scale-invariant shape features for recognition of object

categories. In: CVPR. Volume II. (2004) 90 – 96

15. Mikolajczyk, K., Schmid, C.: Scale and affine invariant interest point detectors.

IJCV 60 (2004) 63 – 86

16. Florack, L.M.J., Haar Romeny, B.M.t., Koenderink, J.J., Viergever, M.A.: General

intensity transformations and differential invariants. JMIV 4 (1994) 171–187

17. Mindru, F., Tuytelaars, T., Van Gool, L., Moons, T.: Moment invariants for recog-

nition under changing viewpoint and illumination. CVIU 94 (2004) 3–27

18. Baumberg, A.: Reliable feature matching across widely separated views. In: CVPR.

(2000) 774 – 781

19. Schaffalitzky, F., Zisserman, A.: Multi-view matching for unordered image sets, or

「How do I organize my holiday snaps?」. In: ECCV. Volume 1. (2002) 414 – 431

20. Freeman, W.T., Adelson, E.H.: The design and use of steerable filters. PAMI 13

(1991) 891 – 906

21. Carneiro, G., Jepson, A.: Multi-scale phase-based local features. In: CVPR (1).

(2003) 736 – 743

22. Se, S., Ng, H., Jasiobedzki, P., Moyung, T.: Vision based modeling and localiza-

tion for planetary exploration rovers. Proceedings of International Astronautical

Congress (2004)

23. Viola, P., Jones, M.: Rapid object detection using a boosted cascade of simple

features. In: CVPR (1). (2001) 511 – 518

24. Koenderink, J.: The structure of images. Biological Cybernetics 50 (1984) 363 –

370

25. Lindeberg, T.: Discrete Scale-Space Theory and the Scale-Space Primal Sketch,

PhD, KTH Stockholm,. KTH (1991)

26. Lindeberg, T., Bretzner, L.: Real-time scale selection in hybrid multi-scale repre-

sentations. In: Scale-Space. (2003) 148–163

27. Brown, M., Lowe, D.: Invariant features from interest point groups. In: BMVC.

(2002)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。