GhostVLAD for set-based face recognition

GhostVLAD for set-based face recognition 中提到了文章解決的是template-based face recognition。網絡

VLAD: vector of locally aggregated descriptors. 由Jegou et al.在2010年提出,其核心思想是aggregated(積聚),主要應用於圖像檢索領域。less

文章的3個貢獻:ide

  • 提出一種網絡來聚合並embed網絡輸出的面部特徵向量至一個compact的固定長度的表示。
  • 提出一個新奇的GhostVLAD層,其中包含ghost clusters,不對聚合作貢獻。文中展現了一種高質量的自動加權方式來使得高質量的圖像比低質量的圖像貢獻更多。而且這個ghost clusters能夠提升網絡能力來解決比較差質量的圖像。
  • 文中探索了特徵維度,簇的數目,不一樣訓練技術對識別性能的影響。最後做者在IJB-B數據集上遠超sota的identification和cerification指標。

那麼這種set(template) based face recognition的難處何在?在於集合裏的人臉可能有不一樣的姿態,表情,光照,甚至質量的差別也很大。若是我給low-quality和high-quality同樣的weight,那確定會hurt performance。因此網絡應該更關注於informative ones。性能

比較set之間的類似性一個直接的作法就是我將每一個subject的全部人臉特徵都存儲起來,而後比較兩個subject的每一對圖像,這麼作是很是耗存儲和時間。所以聚合方法可以產生compact template representation。更重要的是,從image set獲取的representation應當更加具備判別性。同一subject的template descriptors應當互相close,反之則far apart。儘管一些工做利用average pooling和max pooling能夠聚合到一個比較compact的template representation,本文尋找一種更好的方案。本文靈感來源於圖像檢索中的編碼方法:Fisher Vector encoding和T-embedding 增長從related和unrelated圖像塊提取到的描述子的可分性。因而做者也在利用了一種類似的encoding:NetVLAD來設計網絡。做者拓展NetVLAD結構to include ghost clusters。將這些低質量人臉視爲ghost clusters。儘管沒有明確對template裏的faces進行加權,這種特性自動會出現。即低質量人臉會contribute less。網絡以端到端的方式訓練,僅用identity-level labels。在IJB-A,IJB-B上面都有很大提高。測試

 

大體結構如上圖:對一個template中的每一個圖片提取特徵,而後利用GhostVLAD層來聚合這些descriptors到單一固定長度的vectors。最後的D維template描述子由FC層來削減維度,並附有BN和L2正則。編碼

這個網絡應該有以下性質:spa

  • 輸入任意數量圖像,輸出固定長度的template descriptor來表徵輸入的image set
  • 輸出的template descriptor應當是compact的,或低維,使得存儲較小便於更快的template comparisions。
  • 輸出的template descriptor應當是discriminative的,使得同一subject的templates之間的類似性大於與其餘不一樣subjects之間的類似性。(內聚性)

上面三條性質的實現方案分別以下:設計

  • 利用一個修改後的NetVLAD層:GhostVLAD來聚合人臉描述子
  • 經過一個trained layer實現維度縮減
  • 由於整個網絡end-to-end被訓練,而且由於GhostVLAD層可以down-weight低質量圖像的contribution,因此能夠實現discriminative

本文的核心部件:GhostVLAD:NetVLAD with ghost clustersrest

這是個可訓練的aggregation layer。給定N個DF維的面部向量,計算一個單一的DF乘K維的輸出。它基於NetVLAD層實現了一個編碼過程,相似於VLAD encoding。因此是可微可訓練的。這個NetVLAD已被證明比average和max pooling的效果要好。這裏簡要回顧一下論文NetVLAD(NetVLAD: CNN architecture for weakly supervised place recognition)。orm

 

做者拓展NetVLAD with "ghost" clusters爲GhostVLAD。即做者在原有的K個類簇中額外的加了G個「ghost」類簇來造成soft assignments。

 使用ghost clusters的一個直覺就是使得網絡更容易調整template中的每一個face example。這經過assigning examples to be ignored to the ghost clusters來實現的。例如對於一個highly blurry的人臉圖像,將會被很大程度上assigned to a ghost cluster,使得它在non-ghost的clusters的權重就會趨近於0。那這樣就使得它對於template representation的貢獻是可忽略不計的。

一些訓練細節:

爲了perform set-based training,重複在線採樣屬於同一identity的固定數目的圖像。

測試細節:

對於IJB-A和IJB-B作「1:1 face verification」和「1:N face identification」。

  • 1:1 face verification的目的是決定兩個templates是否屬於同一人。經過設定templates之間的類似性閾值實現。驗證性能由ROC曲線評估,也就是驗證true accept rates(TAR)和false accept rates(FAR)的trade off。
  • 1:N identification的作法是對於probe set的templates,要對給定的gallery中全部templates作評價。模型的評價方法有:true positive identification rate(TPIR)和false positive identification rate(FPIR)以及Rank-N。

結果:明顯對低質量圖像下降了權重。

 

論文:A Good Practice Towards Top Performance of Face Recognition: Transferred Deep Feature Fusion

 

A template refers to a collection of all media (images and/or video frames) of an interested face captured under different conditions that can be utilized as a combined single

representation for matching task.

相關文章
相關標籤/搜索