本文來自《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》,時間線爲2018年1月。是洞見的做品,一做目前在英國帝國理工大學讀博。
CNN近些年在人臉識別上效果顯著,爲了加強softmax loss的辨識性特徵學習能力,Sphereface提出的multiplicative angular margin,參考文獻[43,44]提出的additive cosine margin等分別經過將角度邊際和餘弦邊際整合到loss函數中。html
本文中做者提出一個附加角度邊際(additive angular margin,ArcFace),比目前提出的監督信號有更好的幾何解釋。特別的,提出的ArcFace \(cos(\theta+m)\)直接最大化角度空間中的決策邊界,該角度空間是基於L2-norm的權重和特徵生成的。與multiplicative angular margin(\(cos(m\theta)\))和additive cosine margin \((cos\theta-m)\)相比,ArcFace能夠得到更具辨識性的深度特徵。git
0 引言
不一樣的人臉識別方法主要在如下三個方面有差別:
訓練數據
目前主流的人臉數據集有VGG-Face, VGG2-Face, CAISA-WebFace, UMDFace, MS-Celeb-1M和MegaFace。其中MS-Celeb-1M和MegaFace雖然ID數量上很大,但是也受到標註噪音和長尾分佈的影響。而以前谷歌的FaceNet中訓練的ID就幾百萬。由於訓練集量級的不一樣,工業界人臉識別的效果會好於學術界,並且由於人臉數據集的不一樣,不少論文效果也不能徹底復現。github
網絡結構和配置
如ResNet,Inception-ResNet能夠得到比VGG網絡和Inception v1更好的效果,不一樣人臉識別的應用主要在速度和精度之間權衡。例如移動端的人臉驗證,須要實時性的運行速度和緊湊的模型大小。而對於十億級別的安全系統,高準確度纔是最重要的。安全
loss函數的設計網絡
- 基於歐式邊際的loss:在最開始的人臉識別文獻如[31,42],基於一系列已知ID的數據集上訓練softmax,而後從網絡的中間層輸出特徵向量,並用該向量去泛化訓練集中未知的ID數據。後續的Center loss[46], Range loss[50], Marginal loss[10]對最後softmax loss增長了額外的懲罰,使得網絡能壓縮類內變化,擴大類間變化,以此提高檢測率,可是他們仍然仍是經過結合softmax 的方式去訓練網絡模型。基於分類的模型,當ID個數達到百萬級別時,分類層會大量消耗GPU內存,並且網絡自己更傾向平衡的,足夠(每一個ID的樣本量)的訓練數據。
contrastive loss和triplet loss利用了圖像多元組的策略。contrastive loss須要正對和負對,loss的梯度會將正對拉近,負對推遠。triplet loss最小化錨和一個正樣本之間的距離,並最大化錨和一個負樣本之間的距離。然而,contrastive loss和triplet loss的訓練過程是須要技巧的,由於設計到訓練樣本的選擇。
- 基於角度和餘弦邊際的loss:L-Softmax經過增長multiplicative angular constraints到每一個ID上,以提高特徵辨識性。SphereFace \(cos(m\theta)\)基於L-Softmax,使用權重歸一化方式去深度人臉識別。由於餘弦函數的非單調性,SphereFace引入一個分段(piece-wise )函數保證單調性。在SphereFace的訓練過程當中,Softmax loss能夠很容易的結合起來方便和確保收斂。爲了解決SphereFace較難優化的問題,additive cosine margin \(cos(\theta)-m\)將角度邊際移動到餘弦空間中,additive cosine margin比SphereFace更容易實現和優化。並且additive cosine margin也更容易復現,且TencentAILab FaceCNN v1用此方法在當時MegaFace得到了第一名。相比於歐式邊際的loss,角度和餘弦邊際loss是顯式的在一個超球面流行上增長辨識性約束。
如上所述,三個方面中,按影響程度從高到低排序是:數據>> 網絡>> loss。
本文也在這三個方面有所貢獻:app
數據
做者提煉了當前可用的最大公開數據集MS-Celeb-1M,經過自動和手動兩種相結合。經過ResNet-27網絡和在NIST人臉識別挑戰賽上的marginal loss相結合,對MS1M數據集進行質量評估。做者發如今MegaFace一百萬個干擾物與FaceScrub數據集之間存在數百個重疊的人臉圖像,這會影響評估結果。因此從MegaFace干擾物中手動找到這些重疊的人臉。ide
網絡結構
以VGG2做爲訓練數據,對卷積網絡配置進行了普遍的對比實驗,並在LFW,CFP和AgeDB上驗證準確性。 所提出的網絡配置在較大的姿態和年齡變化下都有魯棒性的表現。並探討了最近提出的網絡結構上速度和準確性之間的權衡。函數
loss設計
提出一個新的loss函數,附加角度邊際(additive angular margin,ArcFace)
性能
如圖1,提出的loss函數
\(cos(\theta+m)\)直接最大化角度空間中的決策邊界,該角度空間是基於L2-norm的權重和特徵生成的。能夠發現ArcFace不知有更清晰的集合解釋,同時優於一些baseline方法,如multiplicative angular margin 和additive cosine margin,本文後面從半硬樣本分佈上研究了爲何ArcFace要好於Softmax,SphereFace和CosineFace。
1 從softmax到ArcFace
1.1 sofmax
softmax函數是最普遍使用的分類函數,其式子爲:
學習
這裏
\(x_i \in R^d\)表示第
\(i\)個樣本的深度特徵,屬於第
\(y_i\)類。特徵維度d在本文中爲512[參考文獻23,43,46,50]。
\(W_j \in R^d\)表示最後一層全鏈接層中權重矩陣
\(W \in R^{d\times n}\)第
\(j\)列,
\(b\in R^n\)就是對應的偏置。batch-size和類別個數分別爲m和n。
1.2 權重歸一化
爲了簡潔,將偏置\(b_j=0\)。而後將目標logit轉換成以下式子:
而後經過L2-norm固定
\(||W_j||=1\),這讓預測值以來特徵向量和權重之間的角度:
在SphereFace中,L2權重歸一化基本沒什麼提高。
1.3 Multiplicative Angular Margin
在SphereFace中,角度邊際m經過與角度相乘進入loss:
其中
\(\theta_{y_i}\in [0, \frac{\pi}{m}]\),爲了移除這個約束,
\(cos(m\theta_{y_i})\)經過一個分段單調函數
\(\psi (\theta_{y_i})\)代替,SphereFace式子寫成:
這裏
\(\psi (\theta_{y_i})=(-1)^kcos(m\theta_{y_i})-2k\),
\(\theta_{y_i}\in \left [ \frac{k\pi}{m}, \frac{(k+1)\pi}{m}\right ]\),
\(k \in [0, m-1]\),
\(m \geq 1\)是整數,用於控制角度邊際的size。然而在SphereFace實現中,softmax有監督也會包含進去以保證訓練的收斂,且經過一個超參數
\(\lambda\)去控制權重,在帶有額外softmax loss下,
\(\psi(\theta_{y_i})\)爲:
這裏
\(\lambda\)是一個額外的超參數以方便SphereFace訓練,
\(\lambda\)在最開始設爲1000,而後減少到5以保證每一個類別的角度空間更緊湊。這個超參數讓SphereFace的訓練也變得十分講究技巧。
1.4 特徵歸一化**
在人臉驗證中,特徵歸一化被普遍使用,如L2-norm的歐式距離和餘弦距離[29]。[30]觀察到使用softmax訓練的L2-norm特徵具備人臉質量的信息。對於高質量的正臉就有較高L2-norm,而對於模糊的人臉和極端姿態的人臉就有較低L2-norm。[33]將L2約束加入到特徵描述中,以此限制特徵位於一個固定半徑的超球面上。[44]指出在當來自低質量人臉圖的特徵範數很小的時候梯度範數可能會變得至關大,這隱含了梯度爆炸的風險。
L2-norm在特徵和權重上對於超球面的度量學習是很重要的一步。背後的直觀感受就是這樣能夠移除徑向變化,並將每一個特徵推到一個超球面流行上。特徵規範化的優點在參考文獻[25,26,43,45]中都有揭示。
受到[參考文獻33,43,44,45]的啓發,做者在這裏也將\(||x_i||\)經過L2-norm,而且rescale \(||x_i||\)到s,這就是超球面的半徑,本文中,\(s=64\),基於特徵和權重歸一化,能夠獲得\(W_j^Tx_i=cos\theta_j\)。
若是特徵規範化用在SphereFace上,能夠獲得一個特徵規範化的SphereFace,即SphereFace-Norm:
1.5 Additive Cosine Margin**
在文獻[43,44]中,角度邊際m從\(cos\theta\)中移除了,所以他們提出餘弦邊際loss函數:
本文中,餘弦邊際設爲0.35.相比於SphereFace,額外的餘弦邊際(CosineFace)有三個優點:
- 不須要任何超參數就能容易實現;
- 更清晰,且可以在沒有softmax的輔助下收斂;
- 明顯的性能提高。
1.6 Additive Angular Margin**
雖然餘弦邊際是角度空間一對一的映射過來的,在這兩個邊際中仍然仍是有不一樣的。事實上,角度邊際有着更清晰的幾何解釋,角度空間中的邊際對應超球面流行上角度(arc)距離。做者在\(cos\theta\)中增長了一個角度邊際,由於當\(\theta\in [0,\pi-m]\)時,\(cos(\theta+m)\)小於\(cos(\theta)\),該約束對分類也更嚴格。這裏將提出的ArcFace損失函數定義爲:
若是將提出的Additive Angular Margin
\(cos(\theta+m)\)進行展開,獲得
\(cos(\theta+m)=cos\theta cos\, m-sin\theta sin\, m\)。相比於additive cosine margin
\(cos(\theta)-m\),ArcFace是相似的,不過由於
\(sin\, m\)使得邊際是動態的。
如圖2,角度邊際對應arc邊際,相比於SphereFace和ConsineFace,ArcFace有着最好的度量解釋。
1.7 二值狀況下的對比
爲了更好的理解softmax到ArcFace,基於表1和圖3的二分類下決策面
基於規範化後的權重和特徵,這些方法的主要區別就是在哪放邊際。
1.8 目標logit分析
爲了調查爲何人臉識別能夠被SphereFace,CosineFace和ArcFace所提高,須要分析訓練過程當中目標logits曲線和\(\theta\)的分佈。這裏使用LResNet34E-IR網絡和提煉的MS1M數據集。
在圖4a中,將softmax,SphereFace,CosineFace,ArcFace的目標logit曲線都展現了下。對於SphereFace,最好的配置是m=4,
\(\lambda=5\),其類似於m=1.5,
\(\lambda=0\)的曲線。然而,SphereFace的實現須要m是整數。當嘗試最小相乘邊際m=2,
\(\lambda=0\)時,訓練無法收斂。所以,從Softmax下稍微下降目標logit曲線能夠增長訓練難度並改善性能,可是減小太多可能致使訓練發散。
CosineFace和ArcFace遵循相同的策略,如圖4a,CosineFace沿着y軸負方向移動目標logit曲線,而ArcFace沿着x軸負方向移動目標logit曲線。如今,能夠很容易的理解從Softmax到CosineFace到ArcFace的性能提高。
ArcFace的邊際m=0.5時,\(\theta]in[0,180]\)度目標logit曲線不是單調降低的。事實上,當\(\theta>151.35\)時,目標logit曲線是上升的。然而如圖4c,最開始隨機初始化時,\(\theta\)在\(90\)度爲中心部分是個高斯分佈,其最大的角度小於105度。在訓練階段,幾乎從未達到ArcFace的增加間隔,因此不須要顯式處理這部分。
圖4c中,主要展現了CosineFace和ArcFace在訓練三個階段的\(\theta\)分佈:開始,中間,結束。分佈中心逐漸的從90移動到35-40。
圖4a中,發現30到90度時,ArcFace的目標logit曲線低於CosineFace。所以在這個區間內,ArcFace能夠相比CosineFace有更多嚴格的邊際懲罰。
圖4b中,展現了針對Softmax,CosineFace,ArcFace在訓練集上目標logit收斂曲線。能夠發現ArcFace的邊際懲罰在最開始要重於CosineFace,如紅線低於藍線。在訓練最後,ArcFace收斂要好於CosineFace如\(\theta\)的直方圖在左邊(圖4c),目標logit收斂曲線更高(圖4b)。從圖4c中,還能發如今訓練最後幾乎全部的\(\theta\)要小於60度。這個領域外的樣本都是最難的樣本,就和訓練集合中的噪音同樣。即便CosineFace在\(\theta<30\)上放入更多嚴格邊際懲罰(圖4a),即便在訓練最後也很難達到這個領域(圖4c)。所以,能夠理解爲何SphereFace即便在一個相對小的邊際上也能得到很好的性能。
總結來講,當\(\theta\in[60,90]\)時,增長太多邊際懲罰會致使訓練發散,即SphereFace(m=2,\(\lambda=0\))。當\(\theta\in [30,60]\)時,增長邊際能夠潛在提高性能,由於這個區域對應的是最有效的半硬樣本。當\(\theta<30\)時,不能明顯提高效果,由於這個區域對應的是最簡單的樣本。當回頭看圖4a和介於\([30,60]\)之間的曲線,能夠理解爲何從Softmax,SphereFace,CosineFace,ArcFace有性能提高(基於各自最好的超參數)。注意到這裏30和60度是簡單的做爲簡單和困難訓練樣本的劃分閾值。
2 數據集
有些數據集直接用,有些數據集須要提煉,好比直接經過規則提煉,或者經過其餘模型進行提煉。
以VGG2(直接使用)和MS=Celeb-1M(提煉過爲MS1M)爲訓練集。
以LFW,Celebrities in Frontal Profile (CFP) 和 Age Database (AgeDB)爲驗證集
以MegaFace爲測試集
3 網絡設置
首先基於VGG2做爲訓練集在幾個不一樣的網絡上進行訓練並評估人臉驗證性能。採用softmax做爲loss。batchsize爲512,基於8張P40訓練,學習率開始是0.1,而後在100k,140k,160k迭代上分別乘以0.1倍。總共迭代200k次,動量值爲0.9,權重衰減項係數爲0.0005。
3.1 輸入設置
採用和MTCNN同樣的對齊策略,人臉檢測後會被裁減並縮放到112x112.每一個RGB值先減去127.5,而後除以128。爲了匹配大部分224x224的網絡輸入,做者這裏用conv3x3和stride=1做爲第一層卷積層,代替以前的conv7x7和stride=2。對於這2個配置,卷積網絡的輸出size分別是7x7(網絡名前面有個"L")和3x3。
3.2 輸出設置
在最後幾層,一些不一樣的選擇能夠經過檢測embedding是如何影響模型結果的方式來評估。對於Option-A,全部特徵embedding維度都爲512,由於Option-A中embedding size由最後一個卷積層的通道大小決定:
- Option-A:使用全局池化層(GP)
- Option-B:在GP後使用一個全鏈接層(FC);
- Option-C:在GP後面使用FC-BN;
- Option-D:在GP後使用FC-BN-PReLU;
- Option-E:在最後卷積層後面使用BN-Dropout-FC-BN;
在預測階段,計算的得分是經過兩個向量的餘弦距離,最近鄰和閾值對比是用在人臉識別和驗證任務上。
3.3 塊設置
如同最原始ResNet單元,咱們一樣調研一個更好的殘差單元配置。
<center.>
如圖7,這裏將改變後的殘差單元稱爲"IR",其是一個BN-Conv-BN-PReLU-Conv-BN結構。相比於[12]中的殘差單元,這裏第二次卷積層的stride=2。另外,PReLU用來替換ReLU。
3.4 基底骨幹網絡
做者也調研了MobileNet,Inception-Resnet-V2,DenseNet,SENet,(Dual path network,DPN)。
3.5 不一樣配置實驗結果
輸入選擇
在表2中,對比了有L和沒有L的網絡結構,當在第一層網絡層使用conv3x3和stride=1時,網絡輸出是7x7;當第一層卷積層使用conv7x7和stride=2時,網絡輸出只有3x3.
從表2能夠發現,選擇更大的feature map能夠得到更高的驗證準確度。
輸出選擇
在表3中,給定不一樣輸出配置下的對比。Option-E得到最好的性能本文中dropout參數爲0.4,dropout能夠扮演一個正則化的角色來緩解過擬合從而得到更好的泛化效果
塊選擇
在表4中,給定原始殘差塊和改變的殘差塊的對比。
能夠發現,提出的BN-Conv(stride=1)-BN-PReLu-Conv(stride=2)-BN能夠得到更好效果。
骨幹網絡選擇
從表8,給出了驗證準確度,測試速度和模型size。運行時間是在P40上測的。由於在LFW上性能基本飽和了,因此關注與CFP-FP和AgeDB-30。Inception-Resnet-V2網絡得到最好的性能,一次須要(53.6ms),模型也最大(642MB)。經過對比,MobileNet能夠在4.2ms,112MB大小下運行。而性能只有稍微降低。
如表8,在大網絡直接的性能差距仍是挺小的,如ResNet-100, Inception-Resnet-V2, DenseNet, DPN 和 SE-Resnet-100。介於準確度,速度,模型size,最後選擇LResNet100E-IR做爲MegaFace挑戰的模型預測。
權值衰減
基於SE-LResNet50E-IR,也調研了權重值是怎麼影響人臉驗證性能。
當衰減值爲0.0005時,驗證準確度最高。所以在全部實驗中,本文將其設爲默認值。
4 loss設置
由於邊際參數m在ArcFace中扮演很重要的角色,首先經過實驗找到最佳邊際參數。經過選取[0.2,0.8]之間的值,使用LMobileNetE和ArcFace的loss基於提煉後的MS1M上訓練模型。
如表6,當m=0.2時性能開始提高,在m=0.5的時候性能飽和,而後開始降低。所以本文中m取值0.5。並基於LResNet100E-IR網絡和MS1M數據集,對比了不一樣loss函數,如softmax,SphereFace,CosineFace和ArcFace。
表7中,給出了基於LFW,CFP-FP,AgeDB-30數據集上的驗證準確值。LFW上準確度都接近飽和了,因此提高效果不明顯,不過能夠發現:
- 相比softmax,其餘如SphereFace,CosineFace和ArcFace都有明顯提高,特別是基於較大姿態和年齡變化;
- CosineFace和ArcFace明顯優於SphereFace,且容易實現,且他倆不須要添加額外的softmax來輔助收斂。而SphereFace須要softmax來幫助收斂;
- ArcFace稍好於CosineFace。然而,ArcFace更直觀,且幾何上解釋更清晰。
5 FaceScrub上MegaFace 挑戰1
6 基於triplet loss的提高
reference:
- [1] Fg-net aging database, www-prima.inrialpes.fr/fgnet/.2002. 6
- [2] http://megaface.cs.washington.edu/results/facescrub.html. 1, 2, 9
- [3] https://github.com/davidsandberg/facenet. 2
- [4] https://www.nist.gov/programs-projects/face-recognitionvendor- test-frvt-ongoing. 1
- [5] http://www.yitutech.com/intro/. 1
- [6] A. Bansal, A. Nanduri, C. D. Castillo, R. Ranjan, and R. Chellappa. Umdfaces: An annotated face dataset for training deep networks. arXiv:1611.01484v2, 2016. 1
- [7] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. arXiv:1710.08092, 2017. 1, 2, 3, 6
- [8] T. Chen, M. Li, Y. Li, M. Lin, N. Wang, M. Wang, T. Xiao, B. Xu, C. Zhang, and Z. Zhang. Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems. arXiv:1512.01274, 2015. 7
- [9] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. In Advances in Neural Information Processing Systems, pages 4470–4478, 2017. 8
- [10] J. Deng, Y. Zhou, and S. Zafeiriou. Marginal loss for deep face recognition. In CVPRW, 2017. 2, 6
- [11] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In European Conference on Computer Vision, pages 87–102. Springer, 2016. 1, 2, 6
- [12] D. Han, J. Kim, and J. Kim. Deep pyramidal residual networks. arXiv:1610.02915, 2016. 8
- [13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026–1034, 2015. 8
- [14] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. 2, 8
- [15] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In European Conference on Computer Vision, pages 630–645. Springer, 2016. 2
- [16] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko,W.Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861, 2017. 2, 8
- [17] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv:1709.01507, 2017. 8
- [18] G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten. Densely connected convolutional networks. CVPR, 2016. 8
- [19] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, Technical Report 07-49, University of Massachusetts, Amherst, 2007. 5, 6
- [20] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning, pages 448– 456, 2015. 8
- [21] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard. The megaface benchmark: 1 million faces for recognition at scale. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4873– 4882, 2016. 1, 2, 5, 6
- [22] J. Liu, Y. Deng, T. Bai, Z.Wei, and C. Huang. Targeting ultimate accuracy: Face recognition via deep embedding. arXiv preprint arXiv:1506.07310, 2015. 10
- [23] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. CVPR, 2017. 1, 2, 3, 4, 7, 9
- [24] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, pages 507– 516, 2016. 2, 3
- [25] W. Liu, Y.-M. Zhang, X. Li, Z. Yu, B. Dai, T. Zhao, and L. Song. Deep hyperspherical learning. In Advances in Neural Information Processing Systems, pages 3953–3963, 2017. 3
- [26] Y. Liu, H. Li, and X. Wang. Rethinking feature discrimination and polymerization for large-scale recognition. arXiv:1710.00870, 2017. 3
- [27] S. Moschoglou, A. Papaioannou, C. Sagonas, J. Deng, I. Kotsia, and S. Zafeiriou. Agedb: The first manually collected in-the-wild age database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop, 2017. 5, 6
- [28] H.-W. Ng and S. Winkler. A data-driven approach to cleaning large face datasets. In Image Processing (ICIP), 2014 IEEE International Conference on, pages 343–347. IEEE, 2014. 6
- [29] H. V. Nguyen and L. Bai. Cosine similarity metric learning for face verification. In ACCV, pages 709–720, 2010. 3
- [30] C. J. Parde, C. Castillo, M. Q. Hill, Y. I. Colon, S. Sankaranarayanan, J.-C. Chen, and A. J. O’Toole. Deep convolutional neural network features and the original image. arXiv:1611.01751, 2016. 3
- [31] O. M. Parkhi, A. Vedaldi, and A. Zisserman. Deep face recognition. In BMVC, volume 1, page 6, 2015. 1, 2, 3
- [32] G. Pereyra, G. Tucker, J. Chorowski, Ł. Kaiser, and G. Hinton. Regularizing neural networks by penalizing confident output distributions. arXiv:1701.06548, 2017. 3
- [33] R. Ranjan, C. D. Castillo, and R. Chellappa. L2- constrained softmax loss for discriminative face verification. arXiv:1703.09507, 2017. 3
- [34] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015. 7
- [35] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015. 1, 2, 5, 10
- [36] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs. Frontal to profile face verification in the wild. In WACV, pages 1–9, 2016. 5, 6
- [37] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2
- [38] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. Journal of machine learning research, 15(1):1929–1958, 2014. 8
- [39] Y. Sun, Y. Chen, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. In Advances in neural information processing systems, pages 1988–1996, 2014. 2
- [40] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. In AAAI, pages 4278–4284, 2017. 2, 8
- [41] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1–9, 2015. 2
- [42] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, 2014. 1, 2
- [43] TencentAILab. Facecnn v1. 9/21/2017. 1, 2, 3, 4, 9
- [44] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. In arXiv:1801.05599, 2018. 1, 2, 3, 4, 9
- [45] F. Wang, X. Xiang, J. Cheng, and A. L. Yuille. Normface: l 2 hypersphere embedding for face verification. arXiv:1704.06369, 2017. 3
- [46] Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In European Conference on Computer Vision, pages 499–515. Springer, 2016. 2, 3, 7
- [47] X. Wu, R. He, Z. Sun, and T. Tan. A light cnn for deep face representation with noisy labels. arXiv preprint arXiv:1511.02683, 2015. 1
- [48] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014.
- [49] K. Zhang, Z. Zhang, Z. Li, and Y. Qiao. Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, 23(10):1499–1503, 2016. 7
- [50] X. Zhang, Z. Fang, Y. Wen, Z. Li, and Y. Qiao. Range loss for deep face recognition with long-tail. ICCV, 2017. 1, 2, 3
- [51] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. arXiv:1707.01083, 2017. 2