(十二)GA-RPN----2019CVPR論文解讀

Region Proposal by Guided Anchoring

指導性錨定的區域提案

Abstract

區域錨點是現代對象檢測技術的基石。最先進的探測器主要依靠密集的錨定方案,在該方案中,使用一組預定義的比例尺和縱橫比在空間域上均勻地對錨定進行採樣。在本文中,我們將回顧這個基礎階段。我們的研究表明,可以更有效地完成此任務。具體而言,我們提出了一種名爲「引導錨定」的替代方案,該方案利用語義特徵來指導錨定。所提出的方法共同預測了可能存在感興趣對象中心的位置以及不同位置的比例和縱橫比。除了預測的錨形狀之外,我們還使用特徵自適應模塊緩解了特徵不一致的情況。我們還研究了使用高質量建議來提高檢測性能。錨定方案可以無縫集成到建議方法和檢測器中。藉助「引導錨固」,我們的MS COCO召回率比RPN基線低90%,可提高9.1%。我們還在Fast R-CNN,Faster R-CNN和RetinaNet中採用了引導錨定,分別將檢測mAP提高了2.2%,2.7%和1.2%。代碼將在https://github.com/open-mmlab/mmdetection上提供。

1 Introduction

錨是迴歸參考,分類候選是最高建議(對於兩級檢測器)或最終邊界框(對於單級檢測器)。現代的對象檢測管道通常以大量密集分佈的錨點開始。以快速對象檢測框架Faster RCNN [27]爲例,它首先從密集的錨集中生成區域提議,然後將其分類爲特定類,並通過邊界框迴歸來優化其位置。

合理的錨設計有兩個通用規則:對齊和一致性。 首先,要將卷積特徵用作錨點表示,錨點中心需要與特徵圖像素良好對齊。 其次,接受域和語義範圍應與特徵圖不同位置上的錨點的比例和形狀一致。 滑動窗口是遵循規則的一種簡單且被廣泛採用的錨固方案。 對於大多數檢測方法而言,錨點是通過這種統一方案定義的,其中特徵圖中的每個位置都與具有預定義比例和縱橫比的k個錨點關聯。

在基準[6、20、7、5]和實際系統中,基於錨的檢測管道均顯示有效。但是,上述均勻錨固方案不一定是準備錨固的最佳方法。該方案可能導致兩個困難:(1)必須針對不同的問題預定義一組整齊的長寬比固定的錨。錯誤的設計可能會影響檢測器的速度和準確性。 (2)爲了保持足夠高的提案召回率,需要大量錨點,而其中大多數錨點都與與目標無關的虛假候選人。同時,大量的錨點可能導致大量的計算成本,尤其是當管道在建議階段涉及繁重的分類器時。

在這項工作中,我們提出了一種更有效的方法來準備錨點,目的是減輕手工挑選先驗問題。我們的方法是基於觀察到物體在圖像上分佈不均勻的動機。對象的比例還與圖像內容,其位置和場景的幾何形狀密切相關。按照這種直覺,我們的方法分兩步生成稀疏錨點:首先確定可能包含對象的子區域,然後確定不同位置的形狀。

可學習的錨形狀是有前途的,但是它打破了前述的一致性規則,因此爲學習錨的表示形式進行準確的分類和迴歸提出了新的挑戰。錨點的比例和長寬比現在是可變的,而不是固定的,因此不同的特徵圖像素必須學習適合相應錨點的自適應表示。爲解決此問題,我們引入了arXiv:1901.03278v2 [cs.CV] 2019年4月12日一個有效的模塊,可根據錨點幾何形狀調整特徵。

我們用上述引導式錨定和特徵自適應方案制定了引導式錨定區域提議網絡(GA-RPN)。得益於動態預測的錨點,與採用密集錨點方案的RPN基準相比,我們的方法可將召回率提高9.1%,而錨點數要少90%。通過預測比例尺和縱橫比,而不是根據預定義的列表進行固定,我們的方案可以更有效地處理高大物體。除了區域建議外,引導式錨定方案還可以輕鬆地集成到任何依賴於錨點的檢測器中。使用我們的方案可以實現一致的性能提升。例如,GA-Fast-RCNN,GA-Faster-RCNN和GA-RetinaNet在滑動窗口錨定的基礎上,相對於其基線,COCO數據集的總體mAP分別提高了2.2%,2.7%和1.2%。此外,我們探索了高質量提案的使用,並使用GARPN提案提出了一個微調時間表,該時間表可以改善任何經過訓練的模型的性能,例如,它將完全融合的Faster R-CNN模型從37.4%改進爲39.6 %,僅3個紀元。

這項工作的主要貢獻在於幾個方面。 (1)我們提出了一種新的錨固方案,該方案能夠預測除密集錨和預定義錨以外的非均勻和任意形狀的錨。 (2)我們用兩個因式條件分佈來公式化聯合錨分佈,並設計兩個模塊分別對其建模。 (3)我們研究了將特徵與相應錨點對齊的重要性,並設計了一個特徵自適應模塊,以基於基礎錨點形狀來細化特徵。 (4)我們研究了將高質量建議用於兩級檢測器的問題,並提出了一種改進訓練模型性能的方案。

2 Related Work

滑動窗口錨定在對象檢測中。在特徵圖中以滑動窗口方式生成錨已被基於錨的各種檢測器廣泛採用。兩階段方法一直是現代對象檢測時代的主導範式。更快的RCNN [27]提出了區域提案網絡(RPN)來生成對象提案。它使用一個小的全卷積網絡將每個滑動窗口錨點映射到一個低維特徵。以後的兩階段方法[3、18、12]也採用了這種設計。 MetaAnchor [32]引入了元學習來錨定生成。已經進行了嘗試[8、9、23、31、33、34、1、2] [8,9,23,31,33,34,1,2],這些應用級聯架構拒絕早期層或階段的簡單樣本,並迭代迴歸邊界框以進行漸進式精煉。與兩階段方法相比,單階段流水線跳過對象提案的生成,並在一次評估中預測邊界框和類分數。儘管省略了建議步驟,但是單階段方法仍然使用滑動窗口生成的錨框。例如,SSD [21]和DenseBox [14]從特徵圖密集地生成錨,並像多類RPN一樣評估它們。 RetinaNet [19]引入焦點損失以解決前景-背景類不平衡問題。 YOLOv2 [26]採用滑動窗口錨進行分類和空間位置預測,從而獲得比其先例更高的召回率。

比較和差異。我們總結了提出的方法和常規方法之間的差異如下。 (i)首先,以前的方法(單階段,兩階段和多階段)仍然依靠滑動窗口的密集而均勻的錨。我們放棄了滑動窗口方案,並提出了一個更好的對應方案來指導錨定並生成稀疏錨,這是以前沒有探討過的。 (ii)級聯檢測器採用多個階段來逐步完善檢測邊界框,這通常會導致更多模型參數並降低推理速度。這些方法採用RoI Pooling或RoI Align來提取邊界框的對齊特徵,這對於提案生成或單級檢測器來說太昂貴了。 (iii)無錨定方法[14、15、25]通常具有簡單的管道,並在單個階段內產生最終檢測結果。由於缺乏錨點和進一步的基於錨點的改進,它們缺乏處理複雜場景和案例的能力。我們的重點是稀疏和不均勻的錨定方案,並使用高質量的建議來提高檢測性能。爲了實現這一目標,我們必須解決基於錨的方法所特有的不對齊和不一致的問題。 (iv)一些單發檢測器[33,30]通過多次迴歸和分類來精煉錨。我們的方法與它們明顯不同。我們不會逐步完善錨,而是預測錨的分佈,該分佈會因位置和形狀而分解。傳統方法無法多次考慮anchors和features迴歸錨(由[x,y,w,h]表示)之間的對齊方式,並且會破壞對齊方式和一致性。相反,我們強調這兩個規則的重要性,因此我們僅預測錨定形狀,但固定錨定中心並根據預測的形狀調整特徵。

3 Guided Anchoring

在這裏插入圖片描述
圖1:我們的框架的圖示。對於特徵金字塔中的每個輸出特徵圖,我們使用具有兩個分支的錨點生成模塊分別預測錨點的位置和形狀。然後,將特徵適配模塊應用於原始特徵圖,以使新特徵圖瞭解錨點形狀。

錨點是現代對象檢測管道中的基礎。 主流框架,包括兩階段和單階段方法,大多依賴於錨點的均勻排列。 具體來說,一組具有預定義比例和長寬比的錨將被部署在大小爲W×H,步幅爲s的特徵圖上。 由於許多錨放置在不太可能存在目標物體的區域中,因此該方案效率不高。 另外,這種手工挑選的先驗不切實際地假設對象具有一組固定形狀(即,比例和縱橫比)。

在這項工作中,我們旨在開發一種更有效的錨定方案,以考慮對象位置和形狀的不均勻分佈來安排具有可學習形狀的錨。引導錨定方案的工作方式如下。對象的位置和形狀可以用(x,y,w,h)形式的四元組來表徵,其中(x,y)是中心的空間座標,w是寬度,h高度。假設我們從給定圖像I繪製對象,那麼可以認爲其位置和形狀遵循以I爲條件的分佈,如下所示:
p ( x , y , w , h I ) = p ( x , y I ) p ( w , h x , y , I ) ( 1 ) p(x, y, w, h | I)=p(x, y | I) p(w, h | x, y, I) (1)
這種分解可以捕捉兩個重要的直覺:(1)給定一張圖像,對象可能只存在於某些區域中; (2)物體的形狀,即比例和長寬比,與其位置密切相關。

按照此公式,我們設計了一個錨點生成模塊,如圖1的紅色虛線所示。該模塊是一個由兩個分支組成的網絡,分別用於位置和形狀預測。給定圖像I,我們首先導出特徵圖FI。在FI的頂部,位置預測分支會生成一個概率圖,該概率圖指示對象的可能位置,而形狀預測分支則會預測與位置有關的形狀。給定兩個分支的輸出,我們通過選擇預測概率高於某個閾值並且在每個選定位置處具有最可能形狀的位置來生成一組錨點。由於錨的形狀可以變化,因此不同位置的要素應捕獲不同範圍內的視覺內容。考慮到這一點,我們進一步引入了特徵適配模塊,該模塊根據錨的形狀來適配特徵。

上述錨生成過程基於單個特徵圖。目標檢測的最新進展[18,19]表明,對不同級別的多個特徵圖進行操作通常會很有幫助。因此,我們開發了一種多級錨生成方案,該方案遵循FPN體系結構[18],在多個特徵圖上收集錨。請注意,在我們的設計中,錨生成參數在所有涉及的特徵級別之間共享,因此該方案具有參數效率。

3.1. Anchor Location Prediction

如圖1所示,錨點位置預測分支會產生與輸入特徵圖FI相同大小的概率圖p(·| FI),其中每個條目p(i,j | FI)對應於座標爲( I上的(i +1 2)s,(j +1 2)s),其中s是特徵圖的步幅,即相鄰錨點之間的距離。條目的值表示對象中心在該位置存在的可能性。

在我們的公式中,概率圖p(i,j | FI)是使用子網NL預測的。該網絡將1×1卷積應用於基本特徵圖FI,以獲得客觀性得分圖,然後通過逐元素的S型函數將其轉換爲概率值。雖然更深的子網可以做出更準確的預測,但根據經驗,我們發現在卷積層之後進行S型變換可以在效率和精度之間取得良好的平衡。

然後根據結果概率圖,通過選擇相應概率值高於預定義閾值ΔL的那些位置,確定可能存在對象的活動區域。此過程可以過濾掉90%的區域,同時仍保持相同的召回率。如圖4(b)所示,排除了天空和海洋等區域,而錨點則集中在人和衝浪板上。由於沒有必要考慮那些被排除的區域,因此我們用掩蓋卷積替換了隨後的卷積層[17,28],以進行更有效的推理。

3.2. Anchor Shape Prediction

在確定對象的可能位置之後,我們的下一步是確定每個位置可能存在的對象的形狀。如圖1所示,這是通過錨點形狀預測分支完成的。此分支與常規邊界框迴歸非常不同,因爲它不會更改錨點的位置,並且不會導致錨點與錨點特徵之間的未對準。具體地,給定特徵圖FI,該分支將預測每個位置的最佳形狀(w,h),即,該形狀可以導致最接近的地面真相邊界框的最高覆蓋範圍。

雖然我們的目標是預測寬度w和高度h的值,但根據經驗發現,直接預測這兩個數字由於範圍較大,因此不穩定。相反,我們採用以下轉換:
w = σ s e d w , h = σ s e d h ( 2 ) w=\sigma \cdot s \cdot e^{d w}, \quad h=\sigma \cdot s \cdot e^{d h} (2)
形狀預測分支將輸出dw和dh,然後將它們如上所述映射到(w,h),其中s是步幅,而σ是經驗比例因子(在我們的實驗中,σ= 8)。這種非線性變換將輸出空間從大約[0,1000]投影到[-1,1],從而使學習目標變得更加輕鬆和穩定。在我們的設計中,我們使用子網NS進行形狀預測,該網絡包括一個1×1卷積層,該卷積層產生一個包含dw和dh值的兩通道映射圖,以及一個實現等式的逐元素變換層( 2)。

注意,該設計本質上與常規錨定方案的不同之處在於,每個位置僅與動態預測形狀的一個錨關聯,而不是與一組預定義形狀的錨關聯。我們的實驗表明,由於位置和形狀之間的緊密關係,我們的方案可以實現比基線方案更高的召回率。由於它允許任意長寬比,因此我們的方案可以更好地捕獲那些非常高或寬的對象。

3.3. Anchor-Guided Feature Adaptation

在採用滑動窗口方案的常規RPN或單級檢測器中,錨在整個特徵圖上是均勻的,即,它們在每個位置共享相同的形狀和比例。因此,特徵圖可以學習一致的表示。但是,在我們的方案中,錨的形狀隨位置而變化。在這種情況下,我們發現遵循先前的約定[27]並不是一個好的選擇,在該約定中,將全卷積分類器均勻地應用於特徵圖。理想情況下,較大錨點的功能應在較大區域上編碼內容,而較小錨點的功能應相應地具有較小範圍。根據這種直覺,我們進一步設計了錨點引導的特徵適配組件,該組件將根據基礎的錨點形狀在每個單獨的位置上變換特徵,如下所示:
f i = N T ( f i , w i , h i ) ( 3 ) \mathbf{f}_{i}^{\prime}=\mathcal{N}_{T}\left(\mathbf{f}_{i}, w_{i}, h_{i}\right) (3)
其中第i個位置的特徵是(wi,hi)是對應的錨點形狀。對於這種與位置有關的變換,我們採用3×3可變形卷積層[4]來實現NT。如圖1所示,我們首先從錨形狀預測分支的輸出中預測一個偏移場,然後將具有可偏移量的可變形卷積應用於原始特徵圖以獲得f0I。然後,在經過調整的特徵之上,我們可以執行進一步的分類和邊界框迴歸。

3.4. Training

共同目標。所提出的框架使用多任務丟失以端到端的方式進行了優化。除了常規的分類損失Lclsand迴歸損失Lreg,我們還爲錨定位置Lloc和錨定形狀預測Lshape引入了兩個額外的損失。他們共同優化,但有以下損失。
L = λ 1 L l o c + λ 2 L s h a p e + L c l s + L r e g ( 4 ) \mathcal{L}=\lambda_{1} \mathcal{L}_{l o c}+\lambda_{2} \mathcal{L}_{s h a p e}+\mathcal{L}_{c l s}+\mathcal{L}_{r e g} (4)
定位目標。要訓練錨點定位分支,對於每個圖像,我們需要一個二進制標籤圖,其中1表示放置錨點的有效位置,否則爲0。在這項工作中,我們採用了真實的邊界框來指導二進制標籤圖的生成。特別是,我們希望在對象中心附近放置更多錨點,而遠離中心的錨點更少。首先,我們將真實邊界框(xg,yg,wg,hg)映射到相應的特徵圖比例尺,並獲得(x0 g,y0 g,w0 g,h0 g)。我們將R(x,y,w,h)表示爲以(x,y)爲中心且w×h大小的矩形區域。預期將錨放置在接近地面真實物體中心的位置,以獲得較大的初始IoU,因此,我們爲每個框定義了三種類型的區域。

(1)中心區域CR = R(x0 g,y0 g,σ1w0,σ1h0)定義盒子的中心區域。 CR中的像素被指定爲正樣本。

(2)忽略區域IR = R(x0g,y0g,σ2w0,σ2h0)\ CR是不包括CR的較大區域(σ2>σ1)。 IR中的像素在訓練過程中被標記爲「忽略」並被排除。

(3)外部區域OR是不包括CR和IR的特徵圖。 OR中的像素被視爲負樣本。
在這裏插入圖片描述

圖2:多層次功能的定位目標位置。我們根據地物真相的比例將其分配給不同的特徵等級,並分別定義CR,IR和OR。 (最好以彩色顯示。)

先前的工作[14]提出了用於平衡採樣的「灰色區域」,該區域與我們的定位目標具有相似的定義,但僅適用於單個特徵圖。 由於我們使用FPN中的多個特徵級別,因此我們還考慮了相鄰特徵圖的影響。 具體來說,每個特徵圖級別僅應針對特定比例範圍內的對象,因此僅當特徵圖與目標對象的比例範圍相匹配時纔在特徵圖上分配CR。將相鄰級別的相同區域設置爲IR, 如圖2所示。當多個對象重疊時,CR可以抑制IR,IR可以抑制OR。 由於CR通常只佔整個特徵圖的一小部分,因此我們使用Focal Loss [19]來訓練位置分支。

錨定形狀目標。有兩個步驟來確定每個錨點的最佳形狀目標。首先,我們需要將錨點與地面真實邊界框匹配。接下來,我們將預測錨的寬度和高度,以最好地覆蓋匹配的地面真相。

先前的工作[27]將候選錨分配給地面真值邊界框,該框會使用錨產生最大的IoU值。但是,此過程不適用於我們的情況,因爲我們的錨不是預定義而是變量。爲了克服這個問題,我們在變量錨awh = {(x0,y0,w,h)| w> 0,h> 0}與地面真值邊界框gt =(xg,yg,wg,hg ),表示爲vIoU。
vIoU ( a w h , g t ) = max w > 0 , h > 0  IoU normal  ( a w h , g t ) ( 5 ) \operatorname{vIoU}\left(a_{\mathrm{wh}}, \mathrm{gt}\right)=\max _{w>0, h>0} \text { IoU normal }\left(a_{w h}, \mathrm{gt}\right) (5)
其中IoU normal是IoU的典型定義,而w和h是變量。請注意,對於任意錨點位置(x0,y0)和地面真相gt,vIoU(awh,gt)的解析表達式很複雜,並且在端到端網絡中很難有效實現。因此,我們使用另一種方法對其進行近似。給定(x0,y0),我們對w和h的一些常用值進行採樣,以模擬所有w和h的枚舉。然後我們用gt計算這些採樣錨的IoU,並將最大值用作vIoU(awh,gt)的近似值。在我們的實驗中,我們採樣了9對(w,h)來估計訓練期間的vIoU。具體來說,我們採用了9對RetinaNet中使用的不同比例和縱橫比[19]。從理論上講,我們採樣的對越多,則近似值越準確,而計算量卻越大。我們採用有界iou損耗的一種變體[29]來優化形狀預測,而無需計算目標。損失在等式中定義。 (6),其中(w,h)和(wg,hg)表示預測的錨點形狀和相應的地面真相邊界框的形狀。 L1是平滑的L1損失。

在這裏插入圖片描述
圖3:RPN和GA-RPN提案的IoU分佈。我們顯示IoU減少時的累計提案數量。
L shape  = L 1 ( 1 min ( w s , w s w ) ) + L 1 ( 1 min ( h h g , h a h ) ) ( 6 ) \mathcal{L}_{\text {shape }}=\mathcal{L}_{1}\left(1-\min \left(w_{s}, \frac{w_{s}}{w}\right)\right)+\mathcal{L}_{1}\left(1-\min \left(\frac{h}{h_{g}}, \frac{h_{a}}{h}\right)\right) (6)

3.5. The Use of High-quality Proposals

與常規RPN相比,通過建議的錨定方案(GA-RPN)增強的RPN可以生成質量更高的建議。我們探索如何通過使用這種高質量的建議來提高常規兩級檢測器的性能。首先,我們研究了由RPN和GA-RPN生成的提案的IoU分佈,如圖3所示。GA-RPN提案比RPN提案有兩個顯着優勢:(1)積極提案的數量更大,並且( 2)高IoU提案的比例更爲重要。一個簡單的想法是用建議的GA-RPN替換現有模型中的RPN並端到端訓練模型。但是,這個問題並非易事,採用與以前完全相同的設置只能帶來有限的增益(例如,小於1點)。根據我們的觀察,使用高質量建議書的先決條件是根據建議書分配調整培訓樣本的分配。因此,與RPN相比,當使用GA-RPN端對端訓練檢測器時,我們設置了較高的正/負閾值並使用較少的樣本。

除了端到端培訓之外,我們發現GA-RPN提案還可以通過微調計劃來增強受過培訓的兩階段檢測器。具體而言,給定訓練有素的模型,我們會丟棄提案生成組件(例如RPN),並使用預先計算的GA-RPN提案對它進行微調幾個時期(默認爲3個時期)。 GA-RPN提案也可用於推斷。這種簡單的微調方案可以進一步提高性能,而時間成本僅爲幾個紀元。

4 Experiments

4.1. Experimental Setting

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
數據集。 我們在具有挑戰性的MS COCO 2017基準測試中進��閾值並使用較少的樣本。

除了端到端培訓之外,我們發現GA-RPN提案還可以通過微調計劃來增強受過培訓的兩階段檢測器。具體而言,給定訓練有素的模型,我們會丟棄提案生成組件(例如RPN),並使用預先計算的GA-RPN提案對它進行微調幾個時期(默認爲3個時期)。 GA-RPN提案也可用於推斷。這種簡單的微調方案可以進一步提高性能,而時間成本僅爲幾個紀元。

4 Experiments

4.1. Experimental Setting

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
數據集。 我們在具有挑戰性的MS COCO 2017基準測試中進行實驗[20]。 我們將火車拆分用於訓練並報告val拆分的效果。 檢測結果在test-dev拆分中報告。

實施細節。如果沒有另外指定,我們將ResNet-50 [13]與FPN [18]用作骨幹網。通常,我們將圖像調整爲1333×800的大小,而不改變寬高比。我們設置σ1= 0.2,σ2= 0.5。在多任務損失函數中,我們僅使用λ1= 1,λ2= 0.1來平衡位置和形狀預測分支。我們在8個GPU上使用同步SGD,每個GPU有2張圖像。我們總共訓練了12個時期,初始學習率爲0.02,在第8和11時期將學習率降低了0.1。運行時間在TITAN X GPU上進行了測量。

評估指標。 RPN的結果用平均召回率(AR)來衡量,該平均召回率是在不同IoU閾值(從0.5到0.95)下的召回率的平均值。每個圖像100、300和1000個投標的AR表示爲AR100,AR300和AR1000。小型,中型和大型對象(ARS,ARM,ARL)的AR是針對100個提案計算的。使用標準COCO度量標準評估檢測結果,該標準將IoU的mAP平均在0.5到0.95之間。

4.2. Results

我們首先通過將GA-RPN的召回率與RPN基線和現有的最新區域提議方法進行比較來評估我們的錨定方案。 同時,我們比較RPN的一些變體,「 RPN + 9錨」表示在每個特徵級別使用3個比例和3個縱橫比,而基線僅使用1個比例和3個縱橫比,緊隨[18]。 「 RPN + Focal損失」和「 RPN +有界IoU損失」表示分別通過替換二進制交叉熵損失和平滑l1損失將焦點損失[19]和有界IoU損失[29]應用於RPN。 「 RPN + Iterative」表示連續應用兩個RPN頭,並且在它們之間附加3×3卷積。 「 RefineRPN」表示與[33]相似的結構,其中錨點回歸併使用FPN之前和之後的特徵進行兩次分類。

如表1所示,我們的方法在很大程度上優於RPN基準。具體而言,它分別將AR300和AR1000分別提高了10.5%和9.1%。值得注意的是,具有較小主幹的GARPN可以比具有較大主幹的RPN獲得更高的召回率。圖4中顯示的定性結果支持了我們令人鼓舞的結果,其中顯示了稀疏和任意形狀的錨,並可視化了兩個分支的輸出。可以看到,錨點更多地集中在對象上,併爲隨後的對象建議提供了良好的基礎。在圖5中,我們顯示了在滑動窗口錨定和引導錨定時生成的提案的一些示例。

迭代迴歸和分類(「 RPN + Iterative」和「 RefineRPN」)僅給RPN帶來了有限的收益,這證明了上述對齊和一致性規則的重要性,僅僅多次細化錨並不足夠有效。 保持錨點中心固定並根據錨點形狀調整要素至關重要。

在這裏插入圖片描述
爲了研究引導錨的泛化能力及其增強檢測性能的能力,我們將其集成到兩階段和單階段檢測管線中,包括Fast R-CNN [11],Faster RCNN [27]和RetinaNet [19] ]。對於兩級探測器,我們將原始RPN替換爲GA-RPN,對於單級探測器,將滑動窗口錨定方案替換爲建議的導向錨定。表2中的結果表明,引導錨不僅增加了RPN的建議召回率,而且還大大提高了檢測性能。通過引導錨定,這些探測器的mAP分別提高了2.3%,2.7%和1.2%。

爲了進一步研究高質量建議的有效性並研究微調方案,我們採用了完全收斂的Faster R-CNN模型,並使用預先計算的RPN或GA-RPN建議進行微調。我們將檢測器微調3個時期,學習率分別爲0.02、0.002和0.0002。表3中的結果說明,RPN提案無法帶來任何收益,而高質量的GA-RPN提案僅經過3個時間段的時間即可爲訓練模型帶來2.2%的mAP改善。

4.3. Ablation Study

在這裏插入圖片描述
模型設計。我們在設計中省略了不同的組件以調查每個組件的有效性,包括位置預測,形狀預測和特徵自適應。結果示於表4。形狀預測分支被顯示爲有效,這導致4.2%的增益。

位置預測分支帶來了邊際改進。然而,該分支的重要性反映在其獲得稀疏錨的有用性上,從而導致更有效的推理。特徵適配模塊帶來的明顯收益表明,必須根據預測的錨點形狀重新佈置特徵圖。此模塊有助於捕獲與錨定範圍相對應的信息,尤其是對於大型對象。

錨點位置。位置閾值ΔL控制錨分佈的稀疏性。採用不同的閾值將產生不同數量的錨點。爲了揭示LON效率和性能的影響,我們改變了閾值並比較了以下結果:每個圖像的平均錨點數,最終建議的調用和推理運行時間。從表5中我們可以看到,大多數背景區域的客觀性得分都接近於0,因此較小的?L可以將錨點的數量大大減少90%以上,而召回率只有很小的降低。值得注意的是,RPN中的磁頭只是一個卷積層,因此加速並不明顯。然而,錨數量的顯着減少提供了用較重的頭部執行更有效的推斷的可能性。
在這裏插入圖片描述
錨形狀。我們將我們的方法生成的錨點與預定義形狀的滑動窗口錨點進行比較。由於我們的方法僅預測特徵圖的每個位置處的一個錨,而不是比例和縱橫比不同的k個(在基線中k = 3)錨,因此總錨數減少了1 k。我們在圖6中顯示了帶有滑動窗口錨的錨的比例和縱橫比分佈。結果顯示,與預定義的錨比例和形狀相比,引導錨固方案具有很大的優勢。預測的錨點覆蓋的比例尺和縱橫比範圍要大得多,這些比例與地面真實物體具有相似的分佈,並提供了一個初始錨點池,對對象的覆蓋率更高。

功能適應。特徵適配模塊大大提高了召回率,證明了對特徵一致性的補救是必不可少的。我們聲稱,這種改進不僅來自採用可變形卷積,而且還源於我們使用錨定形狀預測來預測可變形卷積層偏移的設計。如果僅在生成錨點之後添加一個可變形卷積層,則AR100 / AR300 / AR1000的結果爲56.1%/ 62.4%/ 66.1%,不如我們的設計結果。

對齊和一致性規則。我們驗證了兩個擬議規則的必要性。對齊規則建議我們應使錨點中心與要素圖像素對齊。根據一致性規則,我們設計了特徵自適應模塊來細化特徵。表6中的結果表明了這些規則的重要性。 1)從第1行和第2行,或第3行和第4行,我們瞭解到預測形狀和中心偏移量,而不僅僅是預測形狀會損害性能。 2)第1行和第3行或第2行和第4行之間的比較顯示了一致性的影響。

使用高質量的建議書。儘管提出了高質量的建議,但是訓練一個好的探測器仍然是一個不小的問題。如圖3所示,GA-RPN提案提供了更多的高IoU候選人。這表明我們可以使用更少的建議來訓練檢測器。我們測試不同數量的提案和不同的IoU閾值,以在Fast R-CNN上爲前景/背景分配標籤。

在這裏插入圖片描述

從表7的結果中,我們觀察到:(1)更大的IoU閾值對於利用高質量建議很重要。 通過關注更高IoU的陽性樣本,假陽性將更少,而分類的特徵則更具區分性。由於我們在訓練過程中爲IoU小於0.6的提案分配了否定標籤,因此AP0.5會降低,而高IoU的AP則會大幅增加,並且總體AP會更高。 (2)如果召回率足夠高,在培訓和測試期間使用較少的建議可以使學習受益。較少的建議

相關文章
相關標籤/搜索