[深度應用]·基於卷積神經網絡人臉識別的原理及應用開發（轉）

這裏簡單講下OpenFace中實現人臉識別的pipeline，這個pipeline能夠看作是使用深度卷積網絡處理人臉問題的一個基本框架，頗有學習價值，它的結構以下圖所示：html

一、Input Image -> Detect

輸入：原始的可能含有人臉的圖像。git

輸出：人臉位置的bounding box。github

這一步通常咱們稱之爲「人臉檢測」（Face Detection），在OpenFace中，使用的是dlib、OpenCV現有的人臉檢測方法。此方法與深度學習無關，使用的特徵是傳統計算機視覺中的方法（通常是Hog、Haar等特徵）。數據庫

對人臉檢測這一步感興趣的能夠參考下列資料：網絡

dlib的實現：http://blog.dlib.net/2014/02/dlib-186-released-make-your-own-object.html
openCV的實現：Face Detection using Haar Cascades

二、Detect -> Transform -> Crop

輸入：原始圖像 + 人臉位置bounding box框架

輸出：「校準」過的只含有人臉的圖像學習

對於輸入的原始圖像 + bounding box，這一步要作的事情就是要檢測人臉中的關鍵點，而後根據這些關鍵點對人臉作對齊校準。所謂關鍵點，就是下圖所示的綠色的點，一般是眼角的位置、鼻子的位置、臉的輪廓點等等。有了這些關鍵點後，咱們就能夠把人臉「校準」，或者說是「對齊」。解釋就是原先人臉可能比較歪，這裏根據關鍵點，使用仿射變換將人臉統一「擺正」，儘可能去消除姿式不一樣帶來的偏差。這一步咱們通常叫Face Alignment。url

在OpenFace中，這一步一樣使用的是傳統方法，特色是比較快，對應的論文是：spa

https://pdfs.semanticscholar.org/d78b/6a5b0dcaa81b1faea5fb0000045a62513567.pdf

三、Crop -> Representation

輸入：校準後的單張人臉圖像.net

輸出：一個向量表示。

這一步就是使用深度卷積網絡，將輸入的人臉圖像，轉換成一個向量的表示。在OpenFace中使用的向量是128x1的，也就是一個128維的向量。

咱們能夠先看一下VGG16的模型：

VGG16是深度學習中一個比較簡單的基本模型。輸入神經網絡的是圖像，通過一系列卷積後，全鏈接分類獲得類別機率。

在一般的圖像應用中，咱們能夠去掉全鏈接層，用計算的特徵（通常就是卷積層的最後一層，e.g. 圖中的conv5_3）來看成提取的特徵進行計算。但若是對人臉識別問題一樣採用這樣的方法，即，使用卷積層最後一層作爲人臉的「向量表示」，效果實際上是很差的。如何改進？咱們以後再談，這裏先談談咱們但願這種人臉的「向量表示」應該具備哪些性質。

在理想的情況下，咱們但願「向量表示」之間的距離就能夠直接反映人臉的類似度：

對於同一我的的人臉圖像，對應的向量的歐幾里得距離應該比較小。
對於不一樣人的人臉圖像，對應的向量之間的歐幾里得距離應該比較大。

這種表示實際上就能夠看作某種「embedding」。在原始的VGG16模型中，咱們使用的是softmax損失，沒有對每一類的向量表示之間的距離作出要求。因此不能直接用做人臉表示。

舉個例子，使用CNN對MNIST進行分類，咱們設計一個特殊的卷積網絡，讓最後一層的向量變爲2維，此時能夠畫出每一類對應的2維向量表示的圖（圖中一種顏色對應一種類別）：

上圖是咱們直接使用softmax訓練獲得的結果，它就不符合咱們但願特徵具備的特色：

咱們但願同一類對應的向量表示儘量接近。但這裏同一類（如紫色），可能具備很大的類間距離。
咱們但願不一樣類對應的向量應該儘量遠。但在圖中靠中心的位置，各個類別的距離都很近。

那麼訓練人臉特徵表示的正確姿式是什麼？其實有不少種方法。一種方法就是使用「center loss」。centor loss其實是在softmax的loss上再加入一個損失，這個損失對每一類規定了一個「中心」點，每一類的特徵應該離這個中心點比較近，而不一樣類的中心點離的比較遠。加入center loss後，訓練出的特徵大體長這樣：

這樣的特徵表示就比較符合咱們的要求了。center loss的原始論文在這裏：http://ydwen.github.io/papers/WenECCV16.pdf 。上面這兩幅圖一樣是從這篇論文中截下來的。

順帶一提，除了center loss外。學習人臉特徵表示的方法還有不少，如triplet loss（論文地址：A Unified Embedding for Face Recognition and Clustering）。triplet loss直接這樣的用三元組（A的圖像1，A的圖像2，B的圖像）來訓練網絡。去掉了最後的分類層，強迫神經網絡對相同的人臉圖像（三元組中的同一人A）創建統一的表達。

四、實際應用

輸入：人臉的向量表示。

有了人臉的向量表示後，剩下的問題就很是簡單了。由於這種表示具備相同人對應的向量的距離小，不一樣人對應的向量距離大的特色。接下來通常的應用有如下幾類：

人臉驗證（Face Identification）。就是檢測A、B是不是屬於同一我的。只須要計算向量之間的距離，設定合適的報警閾值（threshold）便可。
人臉識別（Face Recognition）。這個應用是最多的，給定一張圖片，檢測數據庫中與之最類似的人臉。顯然能夠被轉換爲一個求距離的最近鄰問題。
人臉聚類（Face Clustering）。在數據庫中對人臉進行聚類，直接K-Means便可。

五、後記

以上給你們介紹了OpenFace中處理人臉問題的pipeline。須要特別指出的是，人臉相關的問題是一個比較大的方向，一篇文章顯然是說不清楚的，這裏只是基於OpenFace，對比較重要的方法還有名詞作了一個解釋。在OpenFace中，爲了速度的考慮，提取人臉特徵以前的Face Detection和Face Alignment就是使用的傳統方法。實際上也能夠換用精度更高的深度學習相關方法，好比在中科院山世光老師開源的人臉識別引擎seetaface/SeetaFaceEngine中，Face Alignment使用就是一個基於autoencoder網絡的方法。另外，學習人臉特徵一樣有適合不一樣場景的不一樣方法，這些都是要進一步學習的。

本文同步分享在博客「小宋是呢」（CSDN）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。