DDT： deep descriptor transform 論文解析

時間 2019-11-29

標籤 ddt deep descriptor transform 論文解析简体版

原文原文鏈接

論文參考連接：https://arxiv.org/abs/1705.02758html

主要思想

提出了一種利用預訓練模型(Imagenet Pretrained)來作解決目標共定位（object co-localization）問題。目標共定位即給定一個圖像集，這個圖像集中大部分圖像區域都是某一個物體如飛機，則將全部飛機的區域定位出來（bounding box）。以下圖所示爲該論文的pipeline，整個過程是無監督的，即隨便給定一個圖像集，它主要包含某一類物體，算法能夠將圖像集中該類目標所有進行定位出來。
算法

論文的主要貢獻是提出了DDT模塊，利用該模塊能夠實現無監督的目標共定位。post

DDT模塊

圖像集{\({ I_1, I_2, ... , I_n }\)}，通過CNN後獲得該集合的特徵向量\(D_{set}\)，其shape: \((n, w, h, c)\)，這裏咱們假設圖像集的全部圖像大小相同，n表明圖像集的圖像數量，\(w\)，\(h\)分別表明特徵圖的寬和高，\(c\)表明特徵圖的通道維數。將\(D_{set}\) reshape 成 \((n*w*h, c)\)的張量並對其進行均值歸0處理，獲得\(D_{reshpae}\)，表示具備\(n*w*h\)個長度爲\(n\)的特徵向量。學習

對\(D_{reshape}\)進行PCA降維, 取最大特徵值對應的特徵向量做爲基向量\(\xi_{1}\)，\(\xi_{1} \in R^c\)。
計算整個圖像集在\(\xi_{1}\)上的投影：
\[P_{set} = D_{reshape} * \xi_{1}\]lua

將\(P_{set}\) reshape回單張圖像獲得{\(P_1, P_2, ... , P_n\)}，則\(P_i\)大於0的區域即爲co-location，在進行後續的postprocessing就能夠獲得最終的bounding box了。spa

理解

PCA找出最大的特徵值對應的特徵向量，將圖像的特徵投影到該方向，若是值爲正說明是正相關的，即圖像集的共性被找到了，這個共性的區域就是co-location。PCA的理解能夠參考這個博客，這裏再也不贅述。
3d

實驗結果

評價指標CorLoc

we take the correct localization (CorLoc) metric for evaluating the proposed method. CorLoc is defined as the percentage of images correctly localized according to the PASCAL-criterion.
即根據PASCAL的IOU標準（IOU>0.5）正肯定位的圖像數量佔總共的圖像數量的百分比。htm

數據集

做者在三個數據即上進行了實驗如下給出三個數據集的基本信息：blog

Object Discovery dataset 鏈接：有三個類別,car, plane, horse; 每張圖一個目標，有部分圖是沒有目標的；每次處理的圖像集大小爲100.
PASCAL VOC (07，12)：使用trainval上的數據。對於大目標如飛機，基本上是一個目標一個圖，背景簡單；可是小目標如cup，背景複雜可能有多個不一樣類別目標同時出現一個圖。
ImageNet Subsets：不包含Imagenet訓練集中的類別，用此來講明模型的泛化能力。