【論文筆記】An Analysis of Scale Invariance in Object Detection - SNIP （一）

時間 2019-11-17

標籤論文筆記 analysis scale invariance object detection snip 欄目 CSS 简体版

原文原文鏈接

SNIP閱讀筆記

Abstract

Basic Analysis

CNN對於尺度變換不具備魯棒性。
單獨在較大或較小的尺度上檢測大目標和小目標較爲困難。
數據集：訓練數據集ImageNet與測試機COCO中的物體大小分佈差別大（domain-shift）。

解決方法

SNIP - Scale Normalization for Image Pyramid，將目標在不一樣大小下的梯度信息選擇性反向傳播（selectively back-propogates）。網絡

Introduction

理論依據

issues

經過上採樣來保留good performance對於目標檢測而言是相當重要的嗎？爲何要把480x480的圖像上採樣爲800x1200？咱們能夠用smaller strides來與訓練ImageNet上的low resolution images而後fine-tune爲目標數據集中的大小嗎？dom
在與訓練是應當將訓練集中全部大小的目標都參與訓練嗎？仍是應該只取一部分大小的，如64x64~256x256。ide

Improvement

融合multiple scales
只對與訓練模型類似的RoI/anchors的梯度進行回傳，來減少domain-shift帶來的影響。

Related Work

對於目標檢測任務，學習尺度變換的信息相當重要。學習

增長feature map的resolution

dilated/atrous convolutions
up-sampling：訓練時1.5-2倍，測試時4倍

SDP、SSH、MS-CNN：對不一樣層進行獨立預測。 FPN、Mask R-CNN、RetinaNet：使用金字塔表示，並將淺層信息與高層信息結合來進行預測。測試

缺陷： 若小目標爲25x25的大小，即便up-sampling後（2倍），仍只有50x50的大小，然而一般預訓練的網絡中樣本目標大小爲224x224，所以對於檢測小目標而言，feature pyramid的做用是有限的。orm

Image Classification at Multiple Scales

研究因爲訓練和測試時出入圖像的分辨率（resolution）不一樣而引發的domain-shift效應cdn

所涉及的模型：blog

實驗一：Naive Multi-Scale Inference

CNN-B：將InamgeNet中的樣本縮小到48x48，64x64，80x80，96x96，128x128，而後上採樣至224x224來模擬不一樣的分辨率。ip

該實驗模擬了訓練數據的分辨率與測試數據的分辨率不一樣時所帶來的影響，結果以下圖：ci

可見，在模型未訓練過的分辨率上進行測試的結果會陷入局部最優（sub-optimal）。

實驗二：Resolution Specific Calssifiers

在實驗一的基礎上，控制訓練數據集與測試數據集的分辨率保持一致，仍選取5種分辨率，但各自訓練不一樣的結構，如48x48的圖像，結構中的ResNet-101的第一層修改成stride 1, kernel_size 3x3，而96x96的圖像預測模型第一層爲stride 2，kernel_size 5x5。