論文參考連接:https://arxiv.org/abs/1705.02758html
提出了一種利用預訓練模型(Imagenet Pretrained)來作解決目標共定位(object co-localization)問題。目標共定位即給定一個圖像集,這個圖像集中大部分圖像區域都是某一個物體如飛機,則將全部飛機的區域定位出來(bounding box)。以下圖所示爲該論文的pipeline,整個過程是無監督的,即隨便給定一個圖像集,它主要包含某一類物體,算法能夠將圖像集中該類目標所有進行定位出來。
算法
論文的主要貢獻是提出了DDT模塊,利用該模塊能夠實現無監督的目標共定位。post
圖像集{\({ I_1, I_2, ... , I_n }\)},通過CNN後獲得該集合的特徵向量\(D_{set}\),其shape: \((n, w, h, c)\),這裏咱們假設圖像集的全部圖像大小相同,n表明圖像集的圖像數量,\(w\),\(h\)分別表明特徵圖的寬和高,\(c\)表明特徵圖的通道維數。將\(D_{set}\) reshape 成 \((n*w*h, c)\)的張量並對其進行均值歸0處理,獲得\(D_{reshpae}\),表示具備\(n*w*h\)個長度爲\(n\)的特徵向量。學習
對\(D_{reshape}\)進行PCA降維, 取最大特徵值對應的特徵向量做爲基向量\(\xi_{1}\),\(\xi_{1} \in R^c\)。
計算整個圖像集在\(\xi_{1}\)上的投影:
\[P_{set} = D_{reshape} * \xi_{1}\]lua
將\(P_{set}\) reshape回單張圖像獲得{\(P_1, P_2, ... , P_n\)},則\(P_i\)大於0的區域即爲co-location,在進行後續的postprocessing就能夠獲得最終的bounding box了。spa
PCA找出最大的特徵值對應的特徵向量,將圖像的特徵投影到該方向,若是值爲正說明是正相關的,即圖像集的共性被找到了,這個共性的區域就是co-location。PCA的理解能夠參考這個博客,這裏再也不贅述。
3d
we take the correct localization (CorLoc) metric for evaluating the proposed method. CorLoc is defined as the percentage of images correctly localized according to the PASCAL-criterion.
即根據PASCAL的IOU標準(IOU>0.5)正肯定位的圖像數量佔總共的圖像數量的百分比。htm
做者在三個數據即上進行了實驗如下給出三個數據集的基本信息:blog
能夠看到SCDA的方法結果也不錯,由於該數據集是一個目標一張圖,因此這種方法也取得了不錯結果ip
兩個VOC數據集上的結果,能夠看到大物體的結果較好,而小物體如cup的結果較差。
這是在ImaeNet Subsets上的結果,算法也取得了比較不錯的結果。
這是與半監督學習算法的結果的對比,算法也得到了 competitive 的結果。