【論文筆記】An Analysis of Scale Invariance in Object Detection - SNIP (二)

Object Detection on an Image Pyramid

Scale Normalization for Image Pyramid

SNIP是由MST修改而來的模型,在上一節中做者指出MST效果很差的緣由在於沒法識別過大或太小的目標,而在SNIP中,咱們使用224x224的分辨率(與pre-training的分辨率相近)來訓練檢測器。app

SNIP在訓練過程當中只對特定尺度範圍內的目標回傳損失,但不對數據集進行過濾處理,是的模型可以補貨全部appearnce和pose細節,從而減少了domain-shift帶來的影響。dom

特定尺度範圍是與pre-training數據相近的尺度,即224x224。測試

**注:**MST進行多尺度訓練,由於一個物體總會有一個尺度落在指定範圍內,只有這個落在指定範圍內的物體參與了訓練,其他部分在BP時忽略。orm

由Table1能夠看出,SNIP與其餘方法相比是優秀的。cdn

SNIP示意圖以下所示:blog

RPN訓練

  1. 用全部的ground truth boxes給anchors和proposals分配標籤。
  2. 對一個特定分辨率i下,定義範圍[sc_i, ec_i],RoI落入此範圍內的ground truth boxes記爲valid,其他爲invalid。
  3. 將與invalid_GT的RoI超過0.3的anchors標記爲invalid anchors。

在測試階段,用RPN生成各個分辨率下的proposals,並各自分類,與訓練時相同,丟棄不在特定範圍內的detections(not proposals)。圖片

最後用soft-NMS講個分辨率下的detections相加,獲得最終結果。ip

Sampling Sub-images

考慮到GPU的顯存限制,須要對圖片進行crop。it

  • 用最少數量的chips(sub-images),1000x1000,來囊括全部小目標。若是沒有小物體就不須要計算,從而達到加速目的。
  • 1400x2000的圖片進行採樣,800x1200和480x640的途中沒有小物體時不須要採樣。
相關文章
相關標籤/搜索