R-CNN論文翻譯——用於精確物體定位和語義分割的豐富特徵層次結構

原文地址git

我對深度學習應用於物體檢測的開山之做R-CNN的論文進行了主要部分的翻譯工做,R-CNN經過引入CNN讓物體檢測的性能水平上升了一個檔次,但該文的想法比較天然原始,估計做者在寫做的過程當中已經意識到這個問題,因此文中也對將來的改進提出了些許的想法,將來我將繼續翻譯SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物體定位和語義分割領域的重要論文,主要做者都是Ross Girshick和Kaiming He。github

用於精確物體定位和語義分割的豐富特徵層次結構

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick      Jeff Donahue      Trevor Darrell     Jitendra Malik
UC Berkeley

 

摘要

過去幾年,在權威的PASCAL VOC數據集上,物體定位的性能已經達到一個穩定水平。表現最好的方法都是融合了多個低層次圖像特徵和高層次的上下文環境的複雜系統。本文提出一種簡單的可擴展的檢測算法,能夠將VOC2012上指望平均精度的最好結果明顯提高30%以上——達到了53.3%。咱們的方法結合了兩個關鍵因素:(1) 將大型卷積神經網絡(CNNs)應用於自底向上區域推薦以定位和分割物體;(2)當標籤訓練數據不足時,先針對輔助任務進行有監督預訓練,再進行特定任務的調優,就能夠產生明顯的性能提高。因爲咱們結合了區域推薦和CNNs,該方法被稱爲R-CNN:Regions with CNN features。咱們對比了R-CNN和OverFeat,Overfeat是最近被提出的一個機遇類CNN架構的滑動窗口檢測器,發現R-CNN在ILSVRC2013檢測數據集上面的表現明顯優於OverFeat。整個系統的源碼在:https://people.eecs.berkeley.edu/~rbg/rcnn(譯者注:已失效,新地址:https://github.com/rbgirshick/rcnn)。
 
相關文章
相關標籤/搜索