SPPNet論文翻譯-空間金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

http://www.dengfanxin.cn/?p=403網絡

原文地址架構

我對物體檢測的一篇重要著做SPPNet的論文的主要部分進行了翻譯工做。SPPNet的初衷很是明晰,就是但願網絡對輸入的尺寸更加靈活,分析到卷積網絡對尺寸並無要求,固定尺寸的要求徹底來源於全鏈接層部分,於是藉助空間金字塔池化的方法來銜接二者,SPPNet在檢測領域的重要貢獻是避免了R-CNN的變形、重複計算等問題,在效果不衰減的狀況下,大幅提升了識別速度。
 

用於視覺識別的深度卷積網絡空間金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
 

摘要

當前深度卷積神經網絡(CNNs)都須要輸入的圖像尺寸固定(好比224×224)。這種人爲的須要致使面對任意尺寸和比例的圖像或子圖像時下降識別的精度。本文中,咱們給網絡配上一個叫作「空間金字塔池化」(spatial pyramid pooling,)的池化策略以消除上述限制。這個咱們稱之爲SPP-net的網絡結構可以產生固定大小的表示(representation)而不關心輸入圖像的尺寸或比例。金字塔池化對物體的形變十分魯棒。因爲諸多優勢,SPP-net能夠廣泛幫助改進各種基於CNN的圖像分類方法。在ImageNet2012數據集上,SPP-net將各類CNN架構的精度都大幅提高,儘管這些架構有着各自不一樣的設計。在PASCAL VOC 2007和Caltech101數據集上,SPP-net使用單一全圖像表示在沒有調優的狀況下都達到了最好成績。SPP-net在物體檢測上也表現突出。使用SPP-net,只須要從整張圖片計算一次特徵圖(feature map),而後對任意尺寸的區域(子圖像)進行特徵池化以產生一個固定尺寸的表示用於訓練檢測器。這個方法避免了反覆計算卷積特徵。在處理測試圖像時,咱們的方法在VOC2007數據集上,達到相同或更好的性能狀況下,比R-CNN方法快24-102倍。在ImageNet大規模視覺識別任務挑戰(ILSVRC)2014上,咱們的方法在物體檢測上排名第2,在物體分類上排名第3,參賽的總共有38個組。本文也介紹了爲了這個比賽所做的一些改進。
 
相關文章
相關標籤/搜索