DDT: deep descriptor transform 論文解析

論文參考連接:https://arxiv.org/abs/1705.02758html

主要思想

提出了一種利用預訓練模型(Imagenet Pretrained)來作解決目標共定位(object co-localization)問題。目標共定位即給定一個圖像集,這個圖像集中大部分圖像區域都是某一個物體如飛機,則將全部飛機的區域定位出來(bounding box)。以下圖所示爲該論文的pipeline,整個過程是無監督的,即隨便給定一個圖像集,它主要包含某一類物體,算法能夠將圖像集中該類目標所有進行定位出來。
算法

論文的主要貢獻是提出了DDT模塊,利用該模塊能夠實現無監督的目標共定位。post

DDT模塊

圖像集{\({ I_1, I_2, ... , I_n }\)},通過CNN後獲得該集合的特徵向量\(D_{set}\),其shape: \((n, w, h, c)\),這裏咱們假設圖像集的全部圖像大小相同,n表明圖像集的圖像數量,\(w\)\(h\)分別表明特徵圖的寬和高,\(c\)表明特徵圖的通道維數。將\(D_{set}\) reshape 成 \((n*w*h, c)\)的張量並對其進行均值歸0處理,獲得\(D_{reshpae}\),表示具備\(n*w*h\)個長度爲\(n\)的特徵向量。學習

\(D_{reshape}\)進行PCA降維, 取最大特徵值對應的特徵向量做爲基向量\(\xi_{1}\)\(\xi_{1} \in R^c\)
計算整個圖像集在\(\xi_{1}\)上的投影:
\[P_{set} = D_{reshape} * \xi_{1}\]lua

\(P_{set}\) reshape回單張圖像獲得{\(P_1, P_2, ... , P_n\)},則\(P_i\)大於0的區域即爲co-location,在進行後續的postprocessing就能夠獲得最終的bounding box了。spa

理解

PCA找出最大的特徵值對應的特徵向量,將圖像的特徵投影到該方向,若是值爲正說明是正相關的,即圖像集的共性被找到了,這個共性的區域就是co-location。PCA的理解能夠參考這個博客,這裏再也不贅述。
3d

實驗結果

評價指標CorLoc

we take the correct localization (CorLoc) metric for evaluating the proposed method. CorLoc is defined as the percentage of images correctly localized according to the PASCAL-criterion.
即根據PASCAL的IOU標準(IOU>0.5)正肯定位的圖像數量佔總共的圖像數量的百分比。htm

數據集

做者在三個數據即上進行了實驗如下給出三個數據集的基本信息:blog

  1. Object Discovery dataset 鏈接:有三個類別,car, plane, horse; 每張圖一個目標,有部分圖是沒有目標的; 每次處理的圖像集大小爲100.
  2. PASCAL VOC (07,12):使用trainval上的數據。對於大目標如飛機,基本上是一個目標一個圖,背景簡單;可是小目標如cup,背景複雜可能有多個不一樣類別目標同時出現一個圖。
  3. ImageNet Subsets:不包含Imagenet訓練集中的類別,用此來講明模型的泛化能力。

實驗結果

能夠看到SCDA的方法結果也不錯,由於該數據集是一個目標一張圖,因此這種方法也取得了不錯結果ip

兩個VOC數據集上的結果,能夠看到大物體的結果較好,而小物體如cup的結果較差。

這是在ImaeNet Subsets上的結果,算法也取得了比較不錯的結果。

這是與半監督學習算法的結果的對比,算法也得到了 competitive 的結果。

量化結果


相關文章
相關標籤/搜索