機器之心專欄git
做者:餘霆嵩github
人臉關鍵點檢測是人臉識別和分析領域中的關鍵一步,它是諸如自動人臉識別、表情分析、三維人臉重建及三維動畫等其它人臉相關問題的前提和突破口。近些年來,深度學習方法因爲其自動學習及持續學習能力,已被成功應用到了圖像識別與分析、語音識別和天然語言處理等不少領域,且在這些方面都帶來了很顯著的改善。所以,本文針對深度學習方法進行了人臉關鍵點檢測的研究。算法
關鍵詞: 人臉關鍵點;人臉特徵點;人臉對齊;卷積神經網絡數據庫
目錄網絡
1、引言 架構
2、人臉關鍵點檢測方法 app
2.1 ASM (Active Shape Models) 框架
2.2 AAM(Active Appearance Models) ide
2.3 CPR(Cascaded pose regression) 函數
2.4 DCNN
2.5 Face++版 DCNN
2.6 TCDCN
2.7 MTCNN
2.8 TCNN(Tweaked Convolutional Neural Networks)
2.9 DAN(Deep Alignment Networks)
3、結語
參考文獻
1、引言
人臉關鍵點檢測也稱爲人臉關鍵點檢測、定位或者人臉對齊,是指給定人臉圖像,定位出人臉面部的關鍵區域位置,包括眉毛、眼睛、鼻子、嘴巴、臉部輪廓等和人臉檢測相似,因爲受到姿態和遮擋等因素的影響,人臉關鍵點檢測也是一個富有挑戰性的任務。
人臉關鍵點檢測是人臉識別任務中重要的基礎環節,人臉關鍵點精確檢測對衆多科研和應用課題具備關鍵做用,例如,人臉姿態矯正、姿態識別、表情識別、疲勞監測、嘴型識別等。所以,如何獲取高精度人臉關鍵點,一直以來都是計算機視覺、模式識別、圖像處理等領域的熱點研究問題。
人臉關鍵點檢測方法大體分爲三種,分別是基 ASM(Active Shape Model)[1] 和 AAM (Active Appearnce Model)[2,3] 的傳統方法;基於級聯形狀迴歸的方法 [4];基於深度學習的方法 [5-10]。如果按照參數化與否來分,可分爲參數化方法和非參數化方法,ASM、AAM 和 CLM[11] 就屬於參數化方法,而級聯迴歸和深度學習方法屬於非參數化方法。基於參數化形狀模型的方法可依據其外觀模型的不一樣,可進一步分爲,基於局部的方法 [12-14] 和基於全局的方法 [15-17];對於非參數化進一步可分爲基於樣例的方法 [18,19]、基於圖模型的方法 [20,21]、基於級聯迴歸的方法 [4,22,23] 和基於深度學習的方法 [24-26]。更爲詳細的劃分請參考文獻 [27]。目前,應用最普遍,效果精度最高的是基於深度學習的方法,所以本文主要針對深度學習在人臉關鍵點檢測上的應用進行研究。
人臉關鍵點定位方法中具備里程碑式的有以下五種方法:
1) 1995 年,Cootes 的 ASM(Active Shape Model)。
2) 1998 年,Cootes 的 AAM(Active Appearance Model) 算法。
3) 2006 年,Ristinacce 的 CLM(Constrained Local Model)算法。
4) 2010 年,Rollar 的 cascaded Regression 算法。
5) 2013 年,Sun 開創深度學習人臉關鍵點檢測的先河,首次將 CNN 應用到人臉關鍵點定位上。
定量評價方面,目前主要的衡量標準是算法所獲取的關鍵點位置與真實關鍵點位置之間的誤差。在評價誤差時,因爲不一樣人臉圖像的實際大小不免會有所差別,爲便於在一樣的尺度下比較算法性能,須要採用必定的數據歸一化策略. 目前主流的方法是基於兩眼間的距離進行人臉大小的標準化,即:
,其中分子表示估計值與真實值的歐式距離,分母表示雙眼距離,即兩眼中心的歐式距離。也有采用邊界框對角線做爲歸一化因子來評價誤差,如文獻 [20]。
傳統人臉關鍵點檢測數據庫爲室內環境下采集的數據庫,好比 Multi-pie、Feret、Frgc、AR、BioID 等人臉數據庫。而現階段人臉關鍵點檢測數據庫一般爲複雜環境下采集的數據庫.LFPW 人臉數據庫有 1132 幅訓練人臉圖像和 300 幅測試人臉圖像,大部分爲正面人臉圖像,每一個人臉標定 29 個關鍵點。AFLW 人臉數據庫包含 25993 幅從 Flickr 採集的人臉圖像,每一個人臉標定 21 個關鍵點。COFW 人臉數據庫包含 LFPW 人臉數據庫訓練集中的 845 幅人臉圖像以及其餘 500 幅遮擋人臉圖像,而測試集爲 507 幅嚴重遮擋(同時包含姿態和表情的變化)的人臉圖像,每一個人臉標定 29 個關鍵點。MVFW 人臉數據庫爲多視角人臉數據集,包括 2050 幅訓練人臉圖像和 450 幅測試人臉圖像,每一個人臉標定 68 個關鍵點。OCFW 人臉數據庫包含 2951 幅訓練人臉圖像(均爲未遮擋人臉)和 1246 幅測試人臉圖像(均爲遮擋人臉),每一個人臉標定 68 個關鍵點。
2、人臉關鍵點檢測方法
人臉關鍵點檢測方法根據是否須要參數化模型可分爲如下兩類,基於參數化形狀模型的方法和基於非參數形狀模型的方法。目前,最爲經常使用的是基於非參數形狀模型的深度學習方法,所以本文討論深度學習方法。可是,爲了更好的理解人臉關鍵點的發展和歷史,本文也簡單介紹了最爲經典的人臉關鍵點檢測方法:ASM 和 AAM。
2.1 ASM (Active Shape Models)
ASM(Active Shape Model)[1] 是由 Cootes 於 1995 年提出的經典的人臉關鍵點檢測算法,主動形狀模型即經過形狀模型對目標物體進行抽象,ASM 是一種基於點分佈模型(Point Distribution Model, PDM)的算法。在 PDM 中,外形類似的物體,例如人臉、人手、心臟、肺部等的幾何形狀能夠經過若干關鍵點(landmarks)的座標依次串聯造成一個形狀向量來表示。ASM 算法須要經過人工標定的方法先標定訓練集,通過訓練得到形狀模型,再經過關鍵點的匹配實現特定物體的匹配。
ASM 主要分爲兩步:第一步:訓練。首先,構建形狀模型:蒐集 n 個訓練樣本(n=400);手動標記臉部關鍵點;將訓練集中關鍵點的座標串成特徵向量;對形狀進行歸一化和對齊(對齊採用 Procrustes 方法);對對齊後的形狀特徵作 PCA 處理。接着,爲每一個關鍵點構建局部特徵。目的是在每次迭代搜索過程當中每一個關鍵點能夠尋找新的位置。局部特徵通常用梯度特徵,以防光照變化。有的方法沿着邊緣的法線方向提取,有的方法在關鍵點附近的矩形區域提取。第二步:搜索。首先:計算眼睛(或者眼睛和嘴巴)的位置,作簡單的尺度和旋轉變化,對齊人臉;接着,在對齊後的各個點附近搜索,匹配每一個局部關鍵點(常採用馬氏距離),獲得初步形狀;再用平均人臉(形狀模型)修正匹配結果;迭代直到收斂。
ASM 算法的優勢在於模型簡單直接,架構清晰明確,易於理解和應用,並且對輪廓形狀有着較強的約束,可是其近似於窮舉搜索的關鍵點定位方式在必定程度上限制了其運算效率。
2.2 AAM(Active Appearance Models)
1998 年,Cootes 對 ASM 進行改進,不只採用形狀約束,並且又加入整個臉部區域的紋理特徵,提出了 AAM 算法 [2]。AAM 於 ASM 同樣,主要分爲兩個階段,模型創建階段和模型匹配階段。其中模型創建階段包括對訓練樣本分別創建形狀模型 (Shape Model) 和紋理模型 (Texture Model),而後將兩個模型進行結合,造成 AAM 模型。
2.3 CPR(Cascaded pose regression)
2010 年,Dollar 提出 CPR(Cascaded Pose Regression, 級聯姿式迴歸)[4],CPR 經過一系列迴歸器將一個指定的初始預測值逐步細化,每個迴歸器都依靠前一個迴歸器的輸出來執行簡單的圖像操做,整個系統可自動的從訓練樣本中學習。
人臉關鍵點檢測的目的是估計向量
,其中 K 表示關鍵點的個數,因爲每一個關鍵點有橫縱兩個座標,因此 S 得長度爲 2K。CPR 檢測流程如圖所示,一共有 T 個階段,在每一個階段中首先進行特徵提取,獲得, 這裏使用的是 shape-indexed features,也可使用諸如 HOG、SIFT 等人工設計的特徵,或者其餘可學習特徵(learning based features),而後經過訓練獲得的迴歸器 R 來估計增量ΔS( update vector),把ΔS 加到前一個階段的 S 上獲得新的 S,這樣經過不斷的迭代便可以獲得最終的 S(shape)。
2.4 DCNN
2013 年,Sun 等人 [5] 首次將 CNN 應用到人臉關鍵點檢測,提出一種級聯的 CNN(擁有三個層級)——DCNN(Deep Convolutional Network),此種方法屬於級聯迴歸方法。做者經過精心設計擁有三個層級的級聯卷積神經網絡,不只改善初始不當致使陷入局部最優的問題,並且藉助於 CNN 強大的特徵提取能力,得到更爲精準的關鍵點檢測。
如圖所示,DCNN 由三個 Level 構成。Level-1 由 3 個 CNN 組成;Level-2 由 10 個 CNN 組成(每一個關鍵點採用兩個 CNN);Level-3 一樣由 10 個 CNN 組成。
Level-1 分 3 個 CNN,分別是 F1(Face 1)、EN1(Eye,Nose)、NM1(Nose,Mouth);F1 輸入尺寸爲 39*39,輸出 5 個關鍵點的座標;EN1 輸入尺寸爲 39*31,輸出是 3 個關鍵點的座標;NM11 輸入尺寸爲 39*31,輸出是 3 個關鍵點。Level-1 的輸出是由三個 CNN 輸出取平均獲得。
Level-2,由 10 個 CNN 構成,輸入尺寸均爲 15*15,每兩個組成一對,一對 CNN 對一個關鍵點進行預測,預測結果一樣是採起平均。
Level-3 與 Level-2 同樣,由 10 個 CNN 構成,輸入尺寸均爲 15*15,每兩個組成一對。Level-2 和 Level-3 是對 Level-1 獲得的粗定位進行微調,獲得精細的關鍵點定位。
Level-1 之因此比 Level-2 和 Level-3 的輸入要大,是由於做者認爲,因爲人臉檢測器的緣由,邊界框的相對位置可能會在大範圍內變化,再加上面部姿態的變化,最終致使輸入圖像的多樣性,所以在 Level-1 應該須要有足夠大的輸入尺寸。Level-1 與 Level-2 和 Level-3 還有一點不一樣之處在於,Level-1 採用的是局部權值共享(Lcally Sharing Weights),做者認爲傳統的全局權值共享是考慮到,某一特徵可能在圖像中任何位置出現,因此採用全局權值共享。然而,對於相似人臉這樣具備固定空間結構的圖像而言,全局權值共享就不奏效了。由於眼睛就是在上面,鼻子就是在中間,嘴巴就是在下面的。因此做者借鑑文獻 [28] 中的思想,採用局部權值共享,做者經過實驗證實了局部權值共享給網絡帶來性能提高。
DCNN 採用級聯迴歸的思想,從粗到精的逐步獲得精確的關鍵點位置,不只設計了三級級聯的卷積神經網絡,還引入局部權值共享機制,從而提高網絡的定位性能。最終在數據集 BioID 和 LFPW 上均得到當時最優結果。速度方面,採用 3.3GHz 的 CPU,每 0.12 秒檢測一張圖片的 5 個關鍵點。
2.5 Face++版 DCNN
2013 年,Face++在 DCNN 模型上進行改進,提出從粗到精的人臉關鍵點檢測算法 [6],實現了 68 我的臉關鍵點的高精度定位。該算法將人臉關鍵點分爲內部關鍵點和輪廓關鍵點,內部關鍵點包含眉毛、眼睛、鼻子、嘴巴共計 51 個關鍵點,輪廓關鍵點包含 17 個關鍵點。
針對內部關鍵點和外部關鍵點,該算法並行的採用兩個級聯的 CNN 進行關鍵點檢測,網絡結構如圖所示。
針對內部 51 個關鍵點,採用四個層級的級聯網絡進行檢測。其中,Level-1 主要做用是得到面部器官的邊界框;Level-2 的輸出是 51 個關鍵點預測位置,這裏起到一個粗定位做用,目的是爲了給 Level-3 進行初始化;Level-3 會依據不一樣器官進行從粗到精的定位;Level-4 的輸入是將 Level-3 的輸出進行必定的旋轉,最終將 51 個關鍵點的位置進行輸出。針對外部 17 個關鍵點,僅採用兩個層級的級聯網絡進行檢測。Level-1 與內部關鍵點檢測的做用同樣,主要是得到輪廓的 bounding box;Level-2 直接預測 17 個關鍵點,沒有從粗到精定位的過程,由於輪廓關鍵點的區域較大,若加上 Level-3 和 Level-4,會比較耗時間。最終面部 68 個關鍵點由兩個級聯 CNN 的輸出進行疊加獲得。
算法主要創新點由如下三點:(1)把人臉的關鍵點定位問題,劃分爲內部關鍵點和輪廓關鍵點分開預測,有效的避免了 loss 不均衡問題;(2)在內部關鍵點檢測部分,並未像 DCNN 那樣每一個關鍵點採用兩個 CNN 進行預測,而是每一個器官採用一個 CNN 進行預測,從而減小計算量;(3)相比於 DCNN,沒有直接採用人臉檢測器返回的結果做爲輸入,而是增長一個邊界框檢測層(Level-1),能夠大大提升關鍵點粗定位網絡的精度。
Face++版 DCNN 首次利用卷積神經網絡進行 68 我的臉關鍵點檢測,針對以往人臉關鍵點檢測受人臉檢測器影響的問題,做者設計 Level-1 卷積神經網絡進一步提取人臉邊界框,爲人臉關鍵點檢測得到更爲準確的人臉位置信息,最終在當年 300-W 挑戰賽上得到領先成績。
2.6 TCDCN
2014 年,Zhang 等人將 MTL(Multi-Task Learning)應用到人臉關鍵點檢測中,提出 TCDCN(Tasks-Constrained Deep Convolutional Network)[7]。做者認爲,在進行人臉關鍵點檢測任務時,結合一些輔助信息能夠幫助更好的定位關鍵點,這些信息如,性別、是否帶眼鏡、是否微笑和臉部的姿式等等。做者將人臉關鍵點檢測(5 個關鍵點)與性別、是否帶眼鏡、是否微笑及臉部的姿式這四個子任務結合起來構成一個多任務學習模型,模型框架如圖所示。
網絡輸出爲 40*40 的灰度圖,通過 CNN 最終獲得 2*2*64 的特徵圖,再經過一層含 100 個神經元的全鏈接層輸出最終提取獲得的共享特徵。該特徵爲全部任務共同享用,對於關鍵點檢測問題,就採用線性迴歸模型;對於分類問題,就採用邏輯迴歸。
在傳統 MLT 中,各任務重要程度是一致的,其目標方程以下:
其中,表示與權值矩陣相乘以後輸入到函數,表示損失函數,是正則項。能夠看到對於各任務 t 而言,其重要性是相同的,可是在多任務學習中,每每不一樣任務的學習難易程度不一樣,若採用相同的損失權重,會致使學習任務難以收斂。文章針對多任務學習中,不一樣學習難度問題進行了優化,提出帶權值的目標函數:
其中,第一項表示主任務的損失函數,即人臉關鍵點檢測的損失函數,第二項表示其他各子任務的損失函數,其中表示任務 a 的重要性。針對人臉關鍵點檢測任務,本文結合了四個子任務,分別是:性別、是否帶眼鏡、是否微笑和臉部的姿式,目標函數爲:
其中,第一項是平方和偏差,表示人臉關鍵點損失函數,第二項是分類任務,採用的是交叉熵偏差,第三項即正則項。
針對多任務學習的另一個問題——各任務收斂速度不一樣,本文提出一種新的提早中止(Early Stopping)方法。當某個子任務達到最好表現之後,這個子任務就對主任務已經沒有幫助,就能夠中止這個任務。文章給出自動中止子任務的計算公式,以下:
其中,表示訓練的偏差,表示驗證的偏差,爲閾值,第一項表示訓練偏差的趨勢,第二項表示泛化偏差與訓練偏差之比,當兩項之積大於閾值,則該任務中止。
TCDCN 採用多任務學習方法對人臉關鍵點進行檢測,針對多任務學習在人臉關鍵點檢測任務中的兩個主要問題——不一樣任務學習難易程度不一樣以及不一樣任務收斂速度不一樣,分別提出了新目標函數和提早中止策略加以改進,最終在 AFLW 和 AFW 數據集上得到領先的結果。同時對比於級聯 CNN 方法,在 Intel Core i5 cpu 上,級聯 CNN 須要 0.12s,而 TCDCN 僅須要 17ms,速度提高七倍有餘。
代碼連接: https://github.com/zhzhanp/TCDCN-face-alignment
2.7 MTCNN
2016 年,Zhang 等人提出一種多任務級聯卷積神經網絡(MTCNN, Multi-task Cascaded Convolutional Networks)[9] 用以同時處理人臉檢測和人臉關鍵點定位問題。做者認爲人臉檢測和人臉關鍵點檢測兩個任務之間每每存在着潛在的聯繫,然而大多數方法都未將兩個任務有效的結合起來,本文爲了充分利用兩任務之間潛在的聯繫,提出一種多任務級聯的人臉檢測框架,將人臉檢測和人臉關鍵點檢測同時進行。
MTCNN 包含三個級聯的多任務卷積神經網絡,分別是 Proposal Network (P-Net)、Refine Network (R-Net)、Output Network (O-Net),每一個多任務卷積神經網絡均有三個學習任務,分別是人臉分類、邊框迴歸和關鍵點定位。網絡結構如圖所示:
MTCNN 實現人臉檢測和關鍵點定位分爲三個階段。首先由 P-Net 得到了人臉區域的候選窗口和邊界框的迴歸向量,並用該邊界框作迴歸,對候選窗口進行校準,而後經過非極大值抑制(NMS)來合併高度重疊的候選框。而後將 P-Net 得出的候選框做爲輸入,輸入到 R-Net,R-Net 一樣經過邊界框迴歸和 NMS 來去掉那些 false-positive 區域,獲得更爲準確的候選框;最後,利用 O-Net 輸出 5 個關鍵點的位置。
在具體訓練過程當中,做者就多任務學習的損失函數計算方式進行相應改進。在多任務學習中,當不一樣類型的訓練圖像輸入到網絡時,有些任務時是不進行學習的,所以相應的損失應爲 0。例如,當訓練圖像爲背景(Non-face)時,邊界框和關鍵點的 loss 應爲 0,文中提供計算公式自動肯定 loss 的選取,公式爲:
其中,表示任務的重要程度,在 P-Net 和 R-Net 中,
, 在 R-Net 中,因爲要對關鍵點進行檢測,因此相應的增大任務的重要性,。做爲樣本類型指示器。
爲了提高網絡性能,須要挑選出困難樣本(Hard Sample),傳統方法是經過研究訓練好的模型進行挑選,而本文提出一種能在訓練過程當中進行挑選困難的在線挑選方法。方法爲,在 mini-batch 中,對每一個樣本的損失進行排序,挑選前 70% 較大的損失對應的樣本做爲困難樣本,同時在反向傳播時,忽略那 30% 的樣本,由於那 30% 樣本對更新做用不大。
實驗結果代表,MTCNN 在人臉檢測數據集 FDDB 和 WIDER FACE 以及人臉關鍵點定位數據集 LFPW 均得到當時最佳成績。在運行時間方面,採用 2.60GHz 的 CPU 能夠達到 16fps,採用 Nvidia Titan Black 可達 99fps。
代碼實現:
Matlab:https://github.com/kpzhang93/MTCNN_face_detection_alignment
Caffe:https://github.com/dlunion/mtcnn
Python:https://github.com/DuinoDu/mtcnn
2.8 TCNN(Tweaked Convolutional Neural Networks)
2016 年,Wu 等人研究了 CNN 在人臉關鍵點定位任務中到底學習到的是什麼樣的特徵,在採用 GMM(Gaussian Mixture Model, 混合高斯模型)對不一樣層的特徵進行聚類分析,發現網絡進行的是層次的,由粗到精的特徵定位,越深層提取到的特徵越能反應出人臉關鍵點的位置。針對這一發現,提出了 TCNN(Tweaked Convolutional Neural Networks)[8],其網絡結構如圖所示:
上圖爲 Vanilla CNN,針對 FC5 獲得的特徵進行 K 個類別聚類,將訓練圖像按照所分類別進行劃分,用以訓練所對應的 FC6K。測試時,圖片首先通過 Vanilla CNN 提取特徵,即 FC5 的輸出。將 FC5 輸出的特徵與 K 個聚類中心進行比較,將 FC5 輸出的特徵劃分至相應的類別中,而後選擇與之相應的 FC6 進行鏈接,最終獲得輸出。
做者經過對 Vanilla CNN 中間層特徵聚類分析得出的結論是什麼呢?又是如何經過中間層聚類分析得出靈感從而設計 TCNN 呢?
做者對 Vanilla CNN 中間各層特徵進行聚類分析,並統計出關鍵點在各層之間的變化程度,如圖所示:
從圖中可知,越深層提取到的特徵越緊密,所以越深層提取到的特徵越能反應出人臉關鍵點的位置。做者在採用 K=64 時,對所劃分簇的樣本進行平均後繪圖以下:
從圖上可發現,每個簇的樣本反應了頭部的某種姿態,甚至出現了表情和性別的差別。所以可推知,人臉關鍵點的位置經常和人臉的屬性相關聯。所以爲了獲得更準確的關鍵點定位,做者使用具備類似特徵的圖片訓練對應的迴歸器,最終在人臉關鍵點檢測數據集 AFLW,AFW 和 300W 上均得到當時最佳效果。
2.9 DAN(Deep Alignment Networks)
2017 年,Kowalski 等人提出一種新的級聯深度神經網絡——DAN(Deep Alignment Network)[10],以往級聯神經網絡輸入的是圖像的某一部分,與以往不一樣,DAN 各階段網絡的輸入均爲整張圖片。當網絡均採用整張圖片做爲輸入時,DAN 能夠有效的克服頭部姿態以及初始化帶來的問題,從而獲得更好的檢測效果。之因此 DAN 能將整張圖片做爲輸入,是由於其加入了關鍵點熱圖(Landmark Heatmaps),關鍵點熱圖的使用是本文的主要創新點。DAN 基本框架如圖所示:
DAN 包含多個階段,每個階段含三個輸入和一個輸出,輸入分別是被矯正過的圖片、關鍵點熱圖和由全鏈接層生成的特徵圖,輸出是面部形狀(Face Shape)。其中,CONNECTION LAYER 的做用是將本階段得輸出進行一系列變換,生成下一階段所須要的三個輸入,具體操做以下圖所示:
從第一階段開始講起,第一階段的輸入僅有原始圖片和 S0。面部關鍵點的初始化即爲 S0,S0 是由全部關鍵點取平均獲得,第一階段輸出 S1。對於第二階段,首先,S1 經第一階段的 CONNECTION LAYERS 進行轉換,分別獲得轉換後圖片 T2(I)、S1 所對應的熱圖 H2 和第一階段 fc1 層輸出,這三個正是第二階段的輸入。如此周而復始,直到最後一個階段輸出 SN。文中給出在數據集 IBUG 上,通過第一階段後的 T2(I)、T2(S1)和特徵圖,如圖所示:
從圖中發現,DAN 要作的「變換」,就是把圖片給矯正了,第一行數據尤其明顯,那麼 DAN 對姿態變換具備很好的適應能力,或許就得益於這個「變換」。至於 DAN 採用何種「變換」,須要到代碼中具體探究。
接下來看一看,St 是如何由 St-1 以及該階段 CNN 獲得,先看 St 計算公式:
其中是由 CNN 輸出的,各階段 CNN 網絡結構如圖所示:
該 CNN 的輸入均是通過了「變換」——的操做,所以獲得的偏移量是在新特徵空間下的偏移量,在通過偏移以後應通過一個反變換還原到原始空間。而這裏提到的新特徵空間,或許是將圖像進行了「矯正」,使得網絡更好的處理圖像。
關鍵點熱度圖的計算就是一箇中心衰減,關鍵點處值最大,越遠則值越小,公式以下:
爲何須要從 fc1 層生成一張特徵圖?文中提到「Such a connection allows any information learned by the preceding stage to be transferred to the consecutive stage.」其實就是人爲給 CNN 增長上一階段信息。
總而言之,DAN 是一個級聯思想的關鍵點檢測方法,經過引入關鍵點熱圖做爲補充,DAN 能夠從整張圖片進行提取特徵,從而得到更爲精確的定位。
代碼實現:
Theano:https://github.com/MarekKowalski/DeepAlignmentNetwork
TensorFlow:https://github.com/kpzhang93/MTCNN_face_detection_alignment
3、結語
深度學習技術的出現,有效促進了不一樣尺度和不一樣任務信息之間的融合,使得信息的結合方式由平面開始向立體方法發展,對於人臉關鍵點提取模型的發展,具備突出的實際意義。正由於如此,本文對目前人臉關鍵點檢測任務中經常使用的深度學習方法進行綜述。
儘管深度學習方法在人臉關鍵點檢測任務上已經得到了長足的發展,算法性能不斷提高,與實際應用的要求也愈來愈接近。然而,該任務的研究還遠未結束,目前還有一些關鍵性難題亟待解決。在此總結三點:
(1)缺少統一的方法集成框架。近年來,隨着深度學習、迴歸分析等技術的應用,人臉關鍵點檢測技術的方法模型更爲豐富。但若要徹底解決關鍵點檢測問題,還須要創建一個統一的綜合性方法框架。所以,若是要實現任意狀況下的高精度人臉關鍵點提取,就須要創建一個集成各種狀況下最優方法的綜合方法框架。
(2)缺乏簡潔模型。近年來出現的方法正變得愈來愈複雜、參數愈來愈多、其所綜合利用的信息和技術也愈來愈繁雜。遵循奧卡姆剃刀原理,過於複雜的模型,必然難以成爲最優解決方案. 目前的人臉關鍵點提取研究,迫切須要發展可以以簡單清晰的模型和方法解決問題的合理思路。
(3)多變的人臉姿態和遮擋。姿態和遮擋是人臉關鍵點檢測所面臨的經典難題,近年來也出現了不少處理這兩方面問題的思路和方法,但目前在實際應用中,尤爲在實時低圖像質量條件下,對於這兩類難題的處理還難以使人滿意. 尤爲當姿態發生快速和劇烈改變,以及遮擋比例較大時,現有方法的精度距離實際應用的要求還有較大差距,須要進一步研究和提高。
本文針對近年人臉關鍵點檢測方法中的深度學習方法進行了綜述研究。本文對人臉關鍵點檢測任務進行了詳細描述,並將具備表明性的深度學習網絡模型,從模型設計思路到模型框架均進行較爲深刻的探究。在所面臨的挑戰性問題和開展相關研究所需的基礎知識方面,本文亦拋磚引玉,但願本文能對相關科研人員瞭解人臉關鍵點檢測問題並開展相關研究起到微薄的做用。
參考文獻
[1] T.F. Cootes, C.J. Taylor, D.H. Cooper, et al. Active Shape Models-Their Training and Application[J]. Computer Vision and Image Understanding, 1995, 61(1):38-59.
[2] G. J. Edwards, T. F. Cootes, C. J. Taylor. Face recognition using active appearance models[J]. Computer Vision—Eccv』, 1998, 1407(6):581-595.
[3] Cootes T F, Edwards G J, Taylor C J. Active appearance models[C]// European Conference on Computer Vision. Springer Berlin Heidelberg, 1998:484-498.
[4] Dollár P, Welinder P, Perona P. Cascaded pose regression[J]. IEEE, 2010, 238(6):1078-1085.
[5] Sun Y, Wang X, Tang X. Deep Convolutional Network Cascade for Facial Point Detection[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3476-3483.
[6] Zhou E, Fan H, Cao Z, et al. Extensive Facial Landmark Localization with Coarse-to-Fine Convolutional Network Cascade[C]// IEEE International Conference on Computer Vision Workshops. IEEE, 2014:386-391.
[7] Zhang Z, Luo P, Chen C L, et al. Facial Landmark Detection by Deep Multi-task Learning[C]// European Conference on Computer Vision. 2014:94-108.
[8] Wu Y, Hassner T. Facial Landmark Detection with Tweaked Convolutional Neural Networks[J]. Computer Science, 2015.
[9] Zhang K, Zhang Z, Li Z, et al. Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J]. IEEE Signal Processing Letters, 2016, 23(10):1499-1503.
[10] Kowalski M, Naruniec J, Trzcinski T. Deep Alignment Network: A Convolutional Neural Network for Robust Face Alignment[J]. 2017:2034-2043.
[11] Cristinacce D, Cootes T F. Feature Detection and Tracking with Constrained Local Models[C]// British Machine Vision Conference 2006, Edinburgh, Uk, September. DBLP, 2006:929-938.
[12] Lucey S, Wang Y, Cox M, et al. Efficient Constrained Local Model Fitting for Non-Rigid Face Alignment[J]. Image & Vision Computing, 2009, 27(12):1804.
[13] Wang Y, Lucey S, Cohn J F. Enforcing convexity for improved alignment with constrained local models[C]// IEEE Conference on Computer Vision & Pattern Recognition. Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit, 2008:1.
[14] Saragih J M, Lucey S, Cohn J F. Deformable Model Fitting by Regularized Landmark Mean-Shift[M]. Kluwer Academic Publishers, 2011.
[15] Papandreou G, Maragos P. Adaptive and constrained algorithms for inverse compositional Active Appearance Model fitting[C]// Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2014:1-8.
[16] Matthews I, Baker S. Active Appearance Models Revisited[J]. International Journal of Computer Vision, 2004, 60(2):135-164.
[17] Amberg B, Blake A, Vetter T. On compositional Image Alignment, with an application to Active Appearance Models[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009:1714-1721.
[18] Smith B M, Zhang L, Brandt J, et al. Exemplar-Based Face Parsing[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3484-3491.
[19] Zhou F, Brandt J, Lin Z. Exemplar-Based Graph Matching for Robust Facial Landmark Localization[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2013:1025-1032.
[20] Coughlan J M, Ferreira S J. Finding Deformable Shapes Using Loopy Belief Propagation[C]// European Conference on Computer Vision. Springer-Verlag, 2002:453-468.
[21] Liang L, Wen F, Xu Y Q, et al. Accurate Face Alignment using Shape Constrained Markov Network[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2006:1313-1319.
[22] Wei Y. Face alignment by Explicit Shape Regression[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2887-2894.
[23] Xiong X, Torre F D L. Supervised Descent Method and Its Applications to Face Alignment[C]// Computer Vision and Pattern Recognition. IEEE, 2013:532-539.
[24] Tang X, Wang X, Luo P. Hierarchical face parsing via deep learning[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2480-2487.
[25] Wu Y, Wang Z, Ji Q. Facial Feature Tracking Under Varying Facial Expressions and Face Poses Based on Restricted Boltzmann Machines[C]// Computer Vision and Pattern Recognition. IEEE, 2013:3452-3459.
[26] Zhang J, Shan S, Kan M, et al. Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment[C]// European Conference on Computer Vision. Springer, Cham, 2014:1-16.
[27] Wang N, Gao X, Tao D, et al. Facial Feature Point Detection: A Comprehensive Survey[J]. Neurocomputing, 2017.
[28] Learnedmiller E, Lee H, Huang G B. Learning hierarchical representations for face verification with convolutional deep belief networks[C]// Computer Vision and Pattern Recognition. IEEE, 2012:2518-2525.
原文連接:https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/
我的介紹:
餘霆嵩,廣東工業大學研三學生,研究方向:深度學習,目標檢測,圖像分類。
本文爲機器之心投稿,轉載請聯繫本公衆號得到受權。