讀論文系列：Object Detection ECCV2016 SSD

時間 2019-12-08

標籤論文系列 object detection eccv2016 eccv ssd 欄目存儲简体版

原文原文鏈接

轉載請註明做者：夢裏茶git

Single Shot MultiBox Detectorgithub

Introduction

一句話歸納：SSD就是關於類別的多尺度RPN網絡網絡

基本思路：ide

基礎網絡後接多層feature map
多層feature map分別對應不一樣尺度的固定anchor
迴歸全部anchor對應的class和bounding box

Model

輸入：300x300
通過VGG-16（只到conv4_3這一層）
通過幾層卷積，獲得多層尺寸逐漸減少的feature map
每層feature map分別作3x3卷積，每一個feature map cell(又稱slide window)對應k個類別和4個bounding box offset，同時對應原圖中6（或4）個anchor(又稱default box)
- 38x38, 最後3x3, 1x1三個feature map的每一個feature map cell只對應4個anchor，分別爲寬高比: 1:1兩種，1:2, 2:1兩種，所以總共有 38 * 38 * 4 + 19 * 19 * 6 + 10 * 10 * 6 + 5 * 5 * 6 + 3 * 3 * 4 + 1 * 1 * 4 = 8732 個anchor
- 其餘feature map的feature map cell對應6個anchor，分別爲寬高比: 1:1兩種，1:2, 2:1兩種，1:3， 3:1兩種
- 每層的feature map cell對應的anchor計算方法以下
- 位置：假設當前feature map cell是位於第i行，第j列，則anchor的中心爲 ((i+0.5)/|f_k|,(j+0.5)/|f_k|), f_k是第k層feature map的size（好比38）
- 縮放因子:
  
  其中s_min爲0.2，s_max爲0.9，m爲添加的feature map的層數，縮放因子就是爲不一樣feature map選擇不一樣的大小的anchor，要求小的feature map對應的anchor儘可能大，由於越小的feature map，其feature map cell的感覺野就越大
- anchor寬高：
  測試
  
  其中，a_r∈{1,2,3,1/2,1/3}，能夠理解爲在縮放因子選擇好anchor尺寸後，用a_r來控制anchor形狀，從而獲得多尺度的各類anchor，當a_r=1時，增長一種 s_k=sqrt(s_k-1s_k+1)，因而每一個feature map cell一般對應6種anchor。對象
網絡的訓練目標就是，迴歸各個anchor對應的類別和位置

Training

樣本

正樣本
選擇與bounding box jaccard overlap（兩張圖的交集/並集）大於0.5的anchor做爲正樣本blog
樣本比例
Hard negative mining：因爲負樣本不少，須要去掉一部分負樣本，先整圖通過網絡，根據每一個anchor的最高類置信度進行排序，選擇置信度靠前的樣本，這樣篩選出來的負樣本也會更難識別，而且最終正負樣本比例大概是1:3排序