k[原創]Faster R-CNN論文翻譯

物體檢測論文翻譯系列:

建議從前日後看,這些論文之間具備明顯的延續性和遞進性。

Faster R-CNN論文翻譯

Faster R-CNN是互懟完了的好基友一塊兒合做出來的巔峯之做,本文翻譯的比例比較小,主要由於本paper是前述paper的一個簡單改進,方法清晰,想法天然。什麼想法?就是把那個一直明明應該換掉卻一直被幾位大神擠牙膏般地拖着不換的選擇性搜索算法,即區域推薦算法。在Fast R-CNN的基礎上將區域推薦換成了神經網絡,並且這個神經網絡和Fast R-CNN的卷積網絡一塊兒複用,大大縮短了計算時間。同時mAP又上了一個臺階,我早就說過了,他們必定是在擠牙膏。

Faster R-CNN: Towards Real-Time Object

Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

摘要

最新的檢測網絡都依賴區域推薦算法來推測物體位置。像SPPnet[1]和Fast R-CNN[2]已經大幅削減了檢測網絡的時間開銷,但區域推薦的計算卻變成了瓶頸。本做將引入一個區域推薦網絡(RPN)和檢測網絡共享全圖像卷積特徵,使得區域推薦的開銷幾近爲0。一個RPN是一個全卷積網絡技能預測物體的邊框,同時也能對該位置進行物體打分。RPN經過端到端的訓練能夠產生高質量的推薦區域,而後再用Fast R-CNN進行檢測。經過共享卷積特徵,咱們進一步整合RPN和Fast R-CNN到一個網絡,用近期流行的「術語」說,就是一種「注意力」機制。RPN組件會告訴整合網絡去看哪一個部分。對於很是深的VGG-16模型[3]。咱們的檢測系統在GPU上達到了5fps的檢測幀率(包括全部步驟),同時也在PASCAL VOC2007,2012和MS COCO數據集上達到了最好的物體檢測精度,而對每張圖片只推薦了300個區域。在ILSVRC和COCO 2015競賽中,Faster R-CNN和RPN是多個賽道都贏得冠軍的基礎。代碼已經公開。
 

 

1. 介紹

區域推薦方法(好比[4])和基於區域的卷及神經網絡(RCNNs)[5]的成功推進了物體檢測水平的進步。儘管RCNNs剛開發出來時[5]十分費時,通過[1][2]的跨推薦區域的共享卷積的改進,已經大幅消減了開銷。近期大做Fast R-CNN[2],若是不考慮區域推薦的耗時,使用超深度網絡[3]已經達到幾乎實時的處理速度。但推薦顯然是最早進檢測系統的瓶頸。
區域推薦算法主要依賴簡單的特徵和經濟的推理機制。最受歡迎的方法——選擇性搜索[4]是基於低層次的人工特徵貪婪地進行超級像素合併。而跟有效的檢測網絡[2]相比,選擇性搜索的就慢了一個數量級,CPU上每張圖片耗時2秒。EdgeBoxes[6]當前作到了速度和推薦質量的最佳平衡。然而,在整個檢測網絡中,區域推薦這一步仍然是主要耗時階段。
你也許會注意到快速的基於推薦的CNNs充分利用了GPU,而區域推薦算法都是CPU中實現的。因此進行這個時間比較是不公平的。若是想加速它,用GPU實現就行了呀。這也許是個有效的工程化解決方案,但從新實現仍然會忽略下游的檢測網絡,於是也失去了共享計算的好機會。
本大做將向您展現一個算法上的改變——使用深度卷積神經網絡計算推薦區域——將引出一個優雅而高效的解決方案,在給定檢測網絡完成的計算的基礎上,讓區域的計算近乎爲0。鑑於此,咱們向你們隆重介紹這個新型的區域推薦網絡(Region Proposal Networks,RPNs),它和當今世界最棒的檢測網絡[1][2]共享卷積層。經過在測試階段共享卷積,讓計算推薦區域的邊際成本變得很低(好比每張圖片10ms)。
咱們觀察到像Fast R-CNN這樣的基於區域的檢測器鎖使用的卷積特徵圖也能夠用來生成推薦區域。在這些卷積層的特徵之上,咱們經過添加一些額外的卷積網絡引入一個RPN,能夠和迴歸約束框、物體打分相併列。RPN是一種徹底卷積網絡(FCN)[7],能夠爲特定任務進行端到端的訓練來產生檢測推薦。
RPNs被設計用來高效地預測各類尺度和寬高比的區域推薦。對稱以前的[8][9][1][2],他們均使用圖像金字塔(圖1,a)或特徵的金字塔(圖1,b),咱們則使用「錨點」盒(「anchor」 boxes)做爲不一樣尺度和寬高比的參照物。咱們的模式能夠看作是一個迴歸參照物的金字塔(圖1,c),這避免了窮舉各類尺度和寬高比的圖像或過濾器。這個模型在單一尺度圖像的訓練和測試時表現優異,於是運行速度大爲受益。
爲了統一RPNs和Fast R-CNN[2]物體檢測網絡,咱們提出一種介於區域推薦任務調優和以後的物體檢測調優之間的訓練方法,同時還能保證固定的推薦。這個方法能夠很快收斂,併產生一個統一的網絡,該網絡在兩個任務上共享卷積特徵。
咱們在PASCAL VOC檢測benchmarks[11]上全面評估了咱們的方法,RPNs結合Fast R-CNNs能夠比選擇性搜索結合Fast R-CNN有更高的準確度。於此同時咱們的方法摒棄了選擇性搜索在測試階段幾乎全部的計算負擔,有效推薦的運行時間只有區區的10毫秒。使用十分耗時的超深度模型[3],咱們的檢測方法仍然能夠在GPU上達到5fps的速度,這使得物體檢測系統在速度和精度上都變得更加使用。咱們也報告了在MS COCO數據集[12]上的結果,探究了PASCAL VOS上使用COCO數據集帶來的提高。代碼如今開放在 https://github.com/shaoqingren/faster_rcnn (in MATLAB)和https://github.com/rbgirshick/py-faster-rcnn (in Python)。
本文的一個早期版本發佈在[10]上。從那時起,RPN和Faster R-CNN的框架就已經被採用,並應用到其餘的方法中,好比3D物體檢測[13],基於組件的檢測[14],實力分割[[13]和圖像字幕[16]。咱們的快速而有效的物體檢測系統已經構建在想Pinterests[17]這樣的商業系統中,提高了用戶交互。
在ILSVRC和COCO 2015競賽中,Faster R-CNN和RPN是多項分賽長的第一名[18],包括ImageNet 檢測,ImageNet定位,COCO檢測和COCO分割。RPNs從數據中徹底學會了推薦區域,並且使用更深或更有表達力的特徵(好比101層的Resnet[18])效果會更好。Faster R-CNN和RPN也用於多個其餘領先名詞的團隊所使用。這些結果都說明咱們的方法不只實用省時,並且有效精準。

2 相關工做

物體推薦。有大量的推薦方法。有一些綜述和這些方法的比較可見於[19], [20], [21]。普遍使用的方法不少基於grouping super-pixels (好比,Selective Search [4], CPMC [22], MCG [23]),還有一些基於滑動窗口(e.g., 好比窗口的物體屬性objectness in windows[24], EdgeBoxes [6])。物體推薦方法也常常獨立於它的檢測器而被不少外部的模塊使用 (好比, Selective Search [4] object detectors, RCNN [5], 和Fast R-CNN [2])。
用於物體檢測的深度網絡。R-CNN方法[5]端到端地訓練CNNs,用於將推薦區域分類成物體類別或背景。R-CNN主要扮演了分類器的角色,它並不預測物體的邊框(除了用於約束框迴歸的淨化模塊)。他的精度依賴於區域推薦模塊的性能(見[20]中的比較)。多篇論文推薦是用深度網絡預測物體約束框 [25], [9], [26], [27]。OverFeat方法中,一個全鏈接網絡用於訓練預測定位任務的單一物體的框座標。爲了檢測多個特定類的物體又將全鏈接層轉變成卷積層。MultiBox方法[26][27]也使用網絡產生推薦,它的最後一個全鏈接層能夠同時預測多個未知類的框,推廣了OverFeat的「單框」風格。這些未知類方框也被R-CNN[5]所使用。MuiltiBox推薦網絡應用於單張圖片的一個裁切,或者一個大型圖片的多個裁切(好比224×224),和咱們的全卷積模式徹底不一樣。MultiBox並不在推薦和檢測網絡之間共享特徵。後面結合咱們的方法,咱們將深刻討論OverFeat和MultiBox。和咱們的工做同時進行的DeepMask方法[28]也被開發出來用於語義推薦。
卷積計算的共享 [9], [1], [29],[7], [2],已經愈來愈受關注。OverFeat[9]中針對分類、定位、檢測時會只從一個圖像金字塔計算卷積特徵。尺寸自適應的SPP[1]也是創建在共享卷積特徵圖智商的,在基於區域的物體檢測[1][30]和語義分割[29]上頗有效。Fast R-CNN[2]使得端到端的檢測器訓練所有創建在共享卷積特徵之上,表現出了有引人注目的精度和速度。

3 FASTER R-CNN

咱們的物體檢測系統,成爲Faster R-CNN有兩個模塊組成。第一個模塊是深度卷積網絡用於生成推薦區域,第二個模塊是Fast R-CNN檢測器[2],使用推薦的區域。整個系統是一個單一的統一的網絡(圖2)。使用近期流行的屬於「注意力」[31]機制,RPN模塊告知Fast R-CNN看向哪裏。3.1節咱們介紹網絡的設計和特性。3.2節,咱們開發算法用於訓練模塊和特徵共享。

3.1 區域推薦網絡

特徵推薦網絡接收任意尺寸的圖像輸入,輸出一組矩形框表明物體推薦區域,每一個區域都會有一個物體性的打分。咱們使用徹底卷積網絡(FCN)[7]構建這個過程,本節將詳細表述它。因爲咱們的終極目標是共享Fast R-CNN和物體檢測網絡[2]之間的計算力,咱們假定兩個網絡能夠共享一套卷積層。在實驗中,咱們研究了Zeiler和Fergus模型[32](ZF),他們就共享了5個卷積層,還研究了Simonyan 和Zisserman模型[3] (VGG-16),他們共享了13個卷積層。
爲了產生區域推薦,咱們用一個小網絡在最後一個卷積層的卷積特徵圖上滑動。每一個滑動窗口都映射到一個更加低維度的特徵(對ZF使用256,對VGG使用512,後面跟一個ReLU[33])。這個特徵再餵給兩個並列的全鏈接層,一個框迴歸層(reg)和一個框分類層(cls)。本文中,咱們使用n=3,一個在大圖片(對於ZF和VGG來講,分別是171和228像素)十分有效的感覺野大小。這個迷你網絡在單一位置的示意如圖3(左)。注意,因爲迷你網絡以滑動窗口的方式進行操做,全鏈接層是在所有空間位置共享的。這個架構很天然就就實現成一個nxn的卷積網絡跟兩個1×1的卷積網絡層(分別是reg和cls)。

3.1.1 錨點

在每一個滑窗位置,咱們同時預測多個區域推薦,每一個位置的最大滑窗推薦數量定位爲k。這樣reg層就有4k的輸出編碼k個框的座標,cls就有2k的預測對象仍是非對象的機率的打分。k個推薦是針對k個參考框進行參數化的,這個參考框咱們稱之爲錨點。一個錨點就是正在關注的滑窗的中心,並和縮放比例、寬高比想關聯(圖3左)(譯者注:就是滑窗中心座標、縮放比例、寬高比造成的三元組決定一個錨點)。默認咱們使用3個縮放尺度和3個寬高比,在每一個滑動位置產生k=9個錨點。對於一個WxH(一般是2400)大小的卷積特徵圖,總共有WHk個錨點。

平移不變性錨點

咱們方法有一個重要特性就是平移不變性。不管是錨點仍是相對錨點計算推薦的函數都有這個特性。若是在一漲圖片上移動一個物體,推薦也應該平移而且相同的函數應該可以在新的位置也計算出推薦來。咱們的方法能夠保證這種平移不變性。做爲對比,MultiBox方法[27]使用k-means產生了800個錨點,卻不能保持平移不變性。所以MultiBox不能保證在物體平移後產生一樣的推薦。
平移不變性能夠縮減模型的大小。MultiBox有(4+1)x 800維的全連接輸出層,而咱們的方法只有(4+2)x9的卷積輸出層,錨點數是k=9。結果,咱們的輸出層有2.8 x 10^4個參數(對於VGG-16而言是512 x (4 + 2)x 9),比MultiBox的輸出層的6.1×10^6個參數(對GoogleNet[34]爲1536x(4 + 1)x800)少了兩個數量級。若是考慮特徵映射層,咱們的推薦層也仍是少一個數量級。咱們預期這個方法能夠在PASCAL VOC這樣的小數據集上有更小的過擬合風險。

多尺度錨點做爲迴歸參照物

咱們的錨點設計是解決多尺度問題的一種新穎形式。如圖1所示,有兩種流行的多尺度預測形式。第一種是基於圖像/特徵金字塔,也就是DPM[8]和基於CNN的方法[9][1][2]。圖像被縮放到各類尺度,特徵圖(HOG[8]或深度卷積特徵[9][1][2])也在每一個尺度進行計算,參見圖1(a)。這種方式一般頗有用,可是很耗時。第二種方式是在特徵圖的多個尺度上使用滑窗。例如,在DPM[8]中,不一樣縮放比例的模型分開訓練,使用了不一樣的過濾器尺寸(諸如5×7,7×5)。若是這種方式解決多尺度問題,能夠看做是過濾器的金字塔,圖1(b)。第二種方式一般和第一種方式聯合使用[8]。做爲比較,咱們的基於錨點的方法是創建在錨點金字塔上的,是否高效。咱們的方法使用不一樣尺度和不一樣寬高比的錨點做爲參考分類和迴歸約束框。他之和單一尺度的圖像和特徵圖有關,而且使用單一尺寸的過濾器,這些過濾器在特徵圖上進行滑動。咱們經過實驗顯示了咱們這個方法解決多尺度和多尺寸問題的效果(表8)。因爲基於錨點的多尺度設計,咱們能夠和Fast R-CNN檢測器[2]同樣,只在單一尺度的圖像上計算卷積特徵。多尺度錨點的設計是不用額外計算開銷共享特徵解決多尺度問題的關鍵。

3.1.2 損失函數

爲了訓練RPNs,咱們設計了針對每一個錨點的二分類標籤(是不是一個物體)。咱們給兩類錨點標記位正例:(i)和標註框最大重合的錨點 (ii)和任何標註框IoU重疊度超過0.7的。對於一個真實標註可能會產生多個正例錨點。一般第二類狀況就足夠肯定正例了,但咱們仍然採用第一類的緣由是一些特別極端的案例裏面沒有正例。對於與標註框重疊度低於0.3的都標註爲負例。既正且負的錨點對訓練沒有幫助。結合這些定義,咱們參照Fast R-CNN中的多任務損失函數的定義咱們的損失函數是:
 
對於約束框迴歸,咱們對四個座標參數化[5]:
 

3.1.3 訓練RPNs

【略】

3.2 RPN and Fast R-CNN之間共享特徵

【略】

3.3 實現細節

【因爲faster r-cnn的設計十分簡潔,後續的英文原文十分易懂,感興趣的能夠直接閱讀原文了】
 

4 EXPERIMENTS

【略】

5 CONCLUSION

【略】
 
更多人工智能相關文章,歡迎訪問: dengfanxin.cn

參考文獻

[1] K. He, X. Zhang, S. Ren, and J. Sun, 「Spatial pyramid poolingin deep convolutional networks for visual recognition,」 inEuropean Conference on Computer Vision (ECCV), 2014. [2] R. Girshick, 「Fast R-CNN,」 in IEEE International Conference onComputer Vision (ICCV), 2015. [3] K. Simonyan and A. Zisserman, 「Very deep convolutional networks for large-scale image recognition,」 in InternationalConference on Learning Representations (ICLR), 2015. [4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, 「Selective search for object recognition,」 InternationalJournal of Computer Vision (IJCV), 2013. [5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, 「Rich featurehierarchies for accurate object detection and semantic segmentation,」 in IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2014. [6] C. L. Zitnick and P. Dollar, 「Edge boxes: Locating object ´proposals from edges,」 in European Conference on ComputerVision (ECCV), 2014. [7] J. Long, E. Shelhamer, and T. Darrell, 「Fully convolutionalnetworks for semantic segmentation,」 in IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2015. [8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, 「Object detection with discriminatively trained partbased models,」 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010. [9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus,and Y. LeCun, 「Overfeat: Integrated recognition, localizationand detection using convolutional networks,」 in InternationalConference on Learning Representations (ICLR), 2014. [10] S. Ren, K. He, R. Girshick, and J. Sun, 「Faster R-CNN: Towards real-time object detection with region proposal networks,」 inNeural Information Processing Systems (NIPS), 2015. [11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, andA. Zisserman, 「The PASCAL Visual Object Classes Challenge2007 (VOC2007) Results,」 2007. [12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, 「Microsoft COCO: Com- ´mon Objects in Context,」 in European Conference on ComputerVision (ECCV), 2014. [13] S. Song and J. Xiao, 「Deep sliding shapes for amodal 3d objectdetection in rgb-d images,」 arXiv:1511.02300, 2015. [14] J. Zhu, X. Chen, and A. L. Yuille, 「DeePM: A deep part-basedmodel for object detection and semantic part localization,」arXiv:1511.07131, 2015. [15] J. Dai, K. He, and J. Sun, 「Instance-aware semantic segmentation via multi-task network cascades,」 arXiv:1512.04412, 2015. [16] J. Johnson, A. Karpathy, and L. Fei-Fei, 「Densecap: Fullyconvolutional localization networks for dense captioning,」arXiv:1511.07571, 2015. [17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, 「Human curation and convnets: Powering item-to-item recommendationson pinterest,」 arXiv:1511.04003, 2015. [18] K. He, X. Zhang, S. Ren, and J. Sun, 「Deep residual learningfor image recognition,」 arXiv:1512.03385, 2015. [19] J. Hosang, R. Benenson, and B. Schiele, 「How good are detection proposals, really?」 in British Machine Vision Conference(BMVC), 2014. [20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, 「What makes ´for effective detection proposals?」 IEEE Transactions on PatternAnalysis and Machine Intelligence (TPAMI), 2015. [21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra,「Object-Proposal Evaluation Protocol is ’Gameable’,」 arXiv:1505.05836, 2015. [22] J. Carreira and C. Sminchisescu, 「CPMC: Automatic object segmentation using constrained parametric min-cuts,」IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI), 2012. [23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, ´「Multiscale combinatorial grouping,」 in IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2014. [24] B. Alexe, T. Deselaers, and V. Ferrari, 「Measuring the objectness of image windows,」 IEEE Transactions on Pattern Analysisand Machine Intelligence (TPAMI), 2012. [25] C. Szegedy, A. Toshev, and D. Erhan, 「Deep neural networksfor object detection,」 in Neural Information Processing Systems(NIPS), 2013. [26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, 「Scalableobject detection using deep neural networks,」 in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014. [27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, 「Scalable,high-quality object detection,」 arXiv:1412.1441 (v1), 2015. [28] P. O. Pinheiro, R. Collobert, and P. Dollar, 「Learning tosegment object candidates,」 in Neural Information ProcessingSystems (NIPS), 2015. [29] J. Dai, K. He, and J. Sun, 「Convolutional feature maskingfor joint object and stuff segmentation,」 in IEEE Conference onComputer Vision and Pattern Recognition (CVPR), 2015. [30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, 「Object detection networks on convolutional feature maps,」arXiv:1504.06066, 2015. [31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, andY. Bengio, 「Attention-based models for speech recognition,」in Neural Information Processing Systems (NIPS), 2015. [32] M. D. Zeiler and R. Fergus, 「Visualizing and understandingconvolutional neural networks,」 in European Conference onComputer Vision (ECCV), 2014. [33] V. Nair and G. E. Hinton, 「Rectified linear units improverestricted boltzmann machines,」 in International Conference onMachine Learning (ICML), 2010. [34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,D. Erhan, and A. Rabinovich, 「Going deeper with convolutions,」 in IEEE Conference on Computer Vision and PatternRecognition (CVPR), 2015. [35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,W. Hubbard, and L. D. Jackel, 「Backpropagation applied tohandwritten zip code recognition,」 Neural computation, 1989. [36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg,and L. Fei-Fei, 「ImageNet Large Scale Visual RecognitionChallenge,」 in International Journal of Computer Vision (IJCV),2015. [37] A. Krizhevsky, I. Sutskever, and G. Hinton, 「Imagenet classification with deep convolutional neural networks,」 in NeuralInformation Processing Systems (NIPS), 2012. [38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, 「Caffe: Convolutionalarchitecture for fast feature embedding,」 arXiv:1408.5093, 2014. [39] K. Lenc and A. Vedaldi, 「R-CNN minus R,」 in British MachineVision Conference (BMVC), 2015.
相關文章
相關標籤/搜索