做者:諾丁漢大學的Adrian Bulat & Georgios Tzimiropoulosgit
Github:https://github.com/1adrianb/face-alignmentgithub
2D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7網絡
3D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7架構
2D-to-3D FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz性能
3D-FAN-depth:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth學習
摘要測試
在現存2D和3D人臉對齊數據集上,本文研究的這個很是深的神經網絡達到接近飽和性能的程度。本文主要作了5個貢獻:(1)結合最早進的人臉特徵點定位(landmark localization)架構和最早進的殘差模塊(residual block),首次構建了一個很是強大的基準,在一個超大2D人臉特徵點數據集(facial landmark dataset)上訓練,並在全部其餘人臉特徵點數據集上進行評估。(2)咱們構建一個將2D特徵點標註轉換爲3D標註,並全部現存數據集進行統一,構建迄今最大、最具備挑戰性的3D人臉特徵點數據集LS3D-W(約230000張圖像)。(3)而後,訓練一個神經網絡來進行3D人臉對齊(face alignment),並在新的LS3D-W數據集上進行評估。(4)本文進一步研究影響人臉對齊性能的全部「傳統」因素,例如大姿態( large pose),初始化和分辨率,並引入一個「新的」因素,即網絡的大小。(5)本文的測試結果顯示2D和3D人臉對齊網絡都實現了很是高的性能,足以證實很是可能接近所使用的數據集的飽和性能。訓練和測試代碼以及數據集能夠從 https://www.adrianbulat.com/face-alignment/%20下載。大數據
引言spa
隨着深度學習和大規模註釋數據集的發展,近年的工做已經顯示出即便在最具挑戰性的計算機視覺任務上也達到史無前例的準確性。在這項工做中,本文專一於特徵點定位(landmark localization),尤爲是人臉特徵點定位,即:人臉對齊(face alignment),「人臉對齊」也能夠說是過去幾十年來計算機視覺中的研究熱點。
目前,關於使用卷積神經網絡(CNN)的特徵點定位的研究,大大推進了其餘領域的界限,例如人體姿態估計,但目前尚不清楚在人臉對齊方面取得怎樣的成果。
歷史上,根據任務的不一樣,有不一樣的技術已被用於特徵點定位。例如,在神經網絡出現以前,人體姿態估計的工做主要是基於圖結構(Pictorial Structure)和各類複雜的擴展(Extension),由於它們可以模擬大的外觀變化, 適應普遍的人類姿式。這些方法雖然沒有被證實可以實現用於人臉對齊任務的級聯迴歸方法(Cascaded Regression Method)表現出的高精確度,但另外一方面,級聯迴歸方法的性能在初始化不許確的狀況下,或有大量的自我封閉的特徵點或大的平面內旋轉時會變差。
最近,基於熱圖迴歸(Heatmap Regression)的徹底卷積神經網絡架構完全改變了人體姿態估計,即便對於最具挑戰性的數據集也獲得很是高的準確度。因爲它們對端到端訓練和人工工程的需求不多,這種方法能夠很容易地應用於人臉對齊問題。
使用2D-3D方法構建最大數據集(LS3D-W)
做者表示,按照這個路徑,「咱們的主要貢獻是構建和訓練這樣一個強大的人臉對齊網絡,並首次調查在全部現有的2D人臉對齊數據集和新引入的大型3D數據集上距離達到接近飽和性能(saturating performance)有多遠」。
Contributions(具體的貢獻):
1. 首次構建了一個很是強大的基準(baseline),結合state-of-the-art的特徵點定位架構和state-of-the-art的 殘差模塊(residual block),並在很是大的綜合擴展的2D人臉特徵點數據集訓練。而後,咱們對全部其餘2D數據集(約230000張圖像)進行評估,分析真正解決2D人臉對齊問題還有多遠。
2. 爲了解決3D人臉對齊數據集少的問題,本文進一步提出了一種將2D註釋轉換爲3D註釋的2D特徵點CNN方法,並使用它建立LS3D-W數據集,這是目前最大、最具挑戰性的3D人臉特徵點數據集(約230000張圖像),是經過將現存的全部數據集統一塊兒來獲得的。
3. 而後,本文訓練了一個3D人臉對齊網絡,並在新的大型3D人臉特徵點數據集進行評估,實際分析距離解決3D人臉對齊問題尚有多遠。
4. 本文進一步研究影響人臉對齊性能的全部「傳統」因素,例如大姿態(large pose),初始化和分辨率,並引入「新的」因素,即網絡的大小。
5. 本文測試結果顯示,2D和3D人臉對齊網絡都實現了很是高準確度的性能,這多是接近了所使用的數據集的飽和性能。
2D-FAN結構:
經過堆疊四個HG(HourGlass)構建的人臉對齊網絡(Face Alignment Network, FAN),其中全部的 bottleneck blocks(圖中矩形塊)被替換爲新的分層、並行和多尺度block。
方法及數據:2D、3D標註及2D-3D轉換都接近飽和性能
文章首先構建人臉對齊網絡「FAN」(Face Alignment Network),而後基於FAN,構建2D-to-3D-FAN,也即將給定圖像2D面部標註轉換爲3D的網絡。文章表示,據測試所知,在大規模2D/3D人臉對齊實驗中訓練且評估FAN這樣強大的網絡,還尚屬首次。
他們基於人體姿態估計最早進的架構之一HourGlass(HG)來構建FAN,而且將HG原有的模塊bottleneck block替換爲一種新的、分層並行多尺度結構(由其餘研究人員提出)。
2D-to-3D-FAN網絡架構:基於人體姿態估計架構HourGlass,輸入是RGB圖像和2D面部地標,輸出是對應的3D面部地標。
2D-FAN標記結果
3D-FAN標記結果
下面是跟現有方法(紅色)的對比,這樣看更能明顯地看出新方法的精度:
除了構建FAN,做者的目標還包括建立首個超大規模的3D面部地標數據集。目前3D面部地標的數據還十分稀少,所以也讓這項工做貢獻頗大。鑑於2D-FAN卓越的效果,做者決定使用2D-to-3D-FAN來生成3D面部地標數據集。
可是,這也帶來了一個問題,那就是評估2D轉3D數據很難。現有的最大同類數據集是AFLW2000-3D。因而,做者先使用2D-FAN,生成2D面部地標標註,再使用2D-to-3D-FAN,將2D數據轉換爲3D面部地標,最後將生成的3D數據與AFLW2000-3D進行比較。
結果發現,二者確實有差別,下圖展現了差別最大的8幅圖像標記結果(白色是論文結果):
做者表示,形成差別的最大緣由是,之前的方法半自動標記管道對一些複雜姿態沒有生成準確的結果。因而,在改進數據後,他們將AFLW2000-3D歸入現有數據集,建立了LS3D-W(Large Scale 3D Faces in-the-Wild dataset),一共包含了大約230,000幅標記圖像,也是迄今最大的3D人臉對齊數據集。
做者以後從各個方面評估了LS3D-W數據集的性能。研究結果代表,他們的網絡已經達到了數據集的「飽和性能」,在構圖、分辨率,初始化以及網絡參數數量方面表現出了超高的彈性(resilience)。更多信息參見論文。
做者表示,雖然他們尚未在這些數據集中去探索一些罕見姿態的效果,但只要有足夠多的數據,他們確信網絡也可以表現得同樣好。
做者:南君
出處:http://www.cnblogs.com/molakejin/
本文版權歸做者和博客園共有,歡迎轉載,但未經做者贊成必須保留此段聲明,且在文章頁面明顯位置給出原文鏈接,不然保留追究法律責任的權利。