GhostVLAD for set-based face recognition 中提到了文章解決的是template-based face recognition。網絡
VLAD: vector of locally aggregated descriptors. 由Jegou et al.在2010年提出,其核心思想是aggregated(積聚),主要應用於圖像檢索領域。less
文章的3個貢獻:ide
那麼這種set(template) based face recognition的難處何在?在於集合裏的人臉可能有不一樣的姿態,表情,光照,甚至質量的差別也很大。若是我給low-quality和high-quality同樣的weight,那確定會hurt performance。因此網絡應該更關注於informative ones。性能
比較set之間的類似性一個直接的作法就是我將每一個subject的全部人臉特徵都存儲起來,而後比較兩個subject的每一對圖像,這麼作是很是耗存儲和時間。所以聚合方法可以產生compact template representation。更重要的是,從image set獲取的representation應當更加具備判別性。同一subject的template descriptors應當互相close,反之則far apart。儘管一些工做利用average pooling和max pooling能夠聚合到一個比較compact的template representation,本文尋找一種更好的方案。本文靈感來源於圖像檢索中的編碼方法:Fisher Vector encoding和T-embedding 增長從related和unrelated圖像塊提取到的描述子的可分性。因而做者也在利用了一種類似的encoding:NetVLAD來設計網絡。做者拓展NetVLAD結構to include ghost clusters。將這些低質量人臉視爲ghost clusters。儘管沒有明確對template裏的faces進行加權,這種特性自動會出現。即低質量人臉會contribute less。網絡以端到端的方式訓練,僅用identity-level labels。在IJB-A,IJB-B上面都有很大提高。測試
大體結構如上圖:對一個template中的每一個圖片提取特徵,而後利用GhostVLAD層來聚合這些descriptors到單一固定長度的vectors。最後的D維template描述子由FC層來削減維度,並附有BN和L2正則。編碼
這個網絡應該有以下性質:spa
上面三條性質的實現方案分別以下:設計
本文的核心部件:GhostVLAD:NetVLAD with ghost clustersrest
這是個可訓練的aggregation layer。給定N個DF維的面部向量,計算一個單一的DF乘K維的輸出。它基於NetVLAD層實現了一個編碼過程,相似於VLAD encoding。因此是可微可訓練的。這個NetVLAD已被證明比average和max pooling的效果要好。這裏簡要回顧一下論文NetVLAD(NetVLAD: CNN architecture for weakly supervised place recognition)。orm
做者拓展NetVLAD with "ghost" clusters爲GhostVLAD。即做者在原有的K個類簇中額外的加了G個「ghost」類簇來造成soft assignments。
使用ghost clusters的一個直覺就是使得網絡更容易調整template中的每一個face example。這經過assigning examples to be ignored to the ghost clusters來實現的。例如對於一個highly blurry的人臉圖像,將會被很大程度上assigned to a ghost cluster,使得它在non-ghost的clusters的權重就會趨近於0。那這樣就使得它對於template representation的貢獻是可忽略不計的。
一些訓練細節:
爲了perform set-based training,重複在線採樣屬於同一identity的固定數目的圖像。
測試細節:
對於IJB-A和IJB-B作「1:1 face verification」和「1:N face identification」。
結果:明顯對低質量圖像下降了權重。
論文:A Good Practice Towards Top Performance of Face Recognition: Transferred Deep Feature Fusion
A template refers to a collection of all media (images and/or video frames) of an interested face captured under different conditions that can be utilized as a combined single
representation for matching task.