以應用爲視角,全面分析人臉識別

根據前瞻產業研究院對對人臉識別市場的預估,到2022年,中國人臉識別市場規模將超過66億元算法

圖片描述

關於人臉識別各類碎片式的報道,也層出不窮,可是鮮有文章能系統性的,從應用的角度出發來深刻講解人臉識別。網絡

智趣雲識客做爲專一於場景識別的AI服務商,咱們將從技術應用與商業模式兩個維度,力求讓讀者,尤爲是考慮AI+應用的從業者,看到全貌。ide

本篇,咱們先來說人臉識別的技術應用。工具

1 基礎層算法

咱們可能斷斷續續據說過人臉檢測、人臉識別等算法,但這些算法之間是否有聯繫,是否有體系?答案的是「有的」。學習

咱們能夠將人臉識別算法分爲基礎層算法與應用層算法。人工智能

基礎層算法,至關於人臉的預處理。一張人臉,首先要通過人臉檢測、特徵關鍵點處理,質量模型過濾以後,才能到應用層算法作處理,並應用到實際場景中。spa

基礎層算法的優劣,很大程度上會影響最終的人臉識別準確率和效果。設計

圖片描述

技術 定義 做用 原理
人臉檢測 將一張照片或一段視頻流中的人臉檢測出來,並輸出人臉矩陣座標 用於截取人臉,用於後續的人臉比對、人臉搜索等算法。 二分類模型,經過深度學習訓練樣本是不是人臉
特徵關鍵點 檢測到人臉後,將人臉的特徵點標記出來,每一個特徵點都有屬性,能表示是臉部位置 1 人臉擺正對齊:實際場景中,抓取的人臉通常不是正方向的,須要擺正後再進行人臉比對、搜索等
2 人臉處理:互娛應用中的貼紙等人臉特效,須要檢測到人臉特徵關鍵後,在對關鍵部位進行鍼對性處理
將人臉照片的關鍵點都作上標記,經過深度學習、分類模型,讓算法能檢測到特徵點並識別特徵點的屬性。
質量模型 對人臉照片的角度、光照、模糊度等進行評估,讓符合要求的照片進行到下一步人臉識別 1 適應不一樣業務中對照片的需求,好比有些場景,須要口罩能識別(醫院),而有些場景則不能
2 提高人臉比對、人臉搜索等後續人臉識別的準確率
迴歸模型,對每張照片標記模糊、光照、遮擋的分值,進行監督訓練後,輸入照片便可輸出對應的質量分值。

圖片描述

2 應用層算法

目前,人臉識別在身份認證領域與互娛領域應用最爲普遍;在智能交互,數據分析處理等方向上,人臉識別也在進行着積極探索。視頻

身份認證/安防的核心功能在於確認「你是誰」,互娛領域的核心在於「人臉特效處理」;兩個領域,兩條賽道,分別擁有各自不一樣的產業鏈。blog

身份認證猶如一位思惟嚴謹的工程師,狠抓識別準確率,防攻擊等指標,並結合應用落地場景,串聯業務流程,也是當下AI結合產業互聯網的典型。

互娛領域就像一位鑽研人性的產品經理,打造各類人臉特效,美顏、貼紙等都不在話下,並結合平臺用戶偏好,使用針對性的人臉特效策略,引領甚至塑造人們的審美潮流。

圖片描述

2.1 你是誰?無介質證實身份

平常生活中,原來咱們都是須要經過介質(身份證、工牌、駕駛證等)來證實身份,而以人臉識別爲表明的生物識別,則無需介質。

身份認證/安防的核心技術在於活體檢測、人臉比對、人臉搜索;主要用於:線上遠程認證場景(金融開戶、刷臉註冊、刷臉登陸等)、線下無人值守場景(智慧交通、人臉門禁、刷臉取款、刷臉支付等)。

活體檢測是身份認證的第一步,由於首先我要確認這我的是真人,而不是視頻、照片、面具等欺詐盜用行爲。

活體檢測的技術上,目前也主要有兩大類:對硬件依賴度比較低的,如動做活體,靜默活體;對硬件有必定要求,須要和硬件適配的,好比雙目活體、3D結構光活體等。雖而後者的成本比前者高,可是防攻擊效果更好,而在線下場景中,自然的須要硬件,於是後者也成爲線下場景的最好選擇。

原理上,都是採集人臉照片,並將照片作上標記(真/假樣本),並送到模型中訓練從而得出算法。不一樣的活體檢測,由於樣本源不同,好比紅外攝像頭採集的照片,帶有灰度特徵;3D結構光采集的照片帶有深度信息,致使識別效果也不一樣。因此,活體檢測的關鍵,除了算法、模型構造,還有一個就是圖片樣本自己所帶有的信息量。
圖片描述

2.1 你是誰?無介質證實身份

平常生活中,原來咱們都是須要經過介質(身份證、工牌、駕駛證等)來證實身份,而以人臉識別爲表明的生物識別,則無需介質。

身份認證/安防的核心技術在於活體檢測、人臉比對、人臉搜索;主要用於:線上遠程認證場景(金融開戶、刷臉註冊、刷臉登陸等)、線下無人值守場景(智慧交通、人臉門禁、刷臉取款、刷臉支付等)。

  • 活體檢測

是身份認證的第一步,由於首先我要確認這我的是真人,而不是視頻、照片、面具等欺詐盜用行爲。

活體檢測的技術上,目前也主要有兩大類:對硬件依賴度比較低的,如動做活體,靜默活體;對硬件有必定要求,須要和硬件適配的,好比雙目活體、3D結構光活體等。雖而後者的成本比前者高,可是防攻擊效果更好,而在線下場景中,自然的須要硬件,於是後者也成爲線下場景的最好選擇。

原理上,都是採集人臉照片,並將照片作上標記(真/假樣本),並送到模型中訓練從而得出算法。不一樣的活體檢測,由於樣本源不同,好比紅外攝像頭採集的照片,帶有灰度特徵;3D結構光采集的照片帶有深度信息,致使識別效果也不一樣。因此,活體檢測的關鍵,除了算法、模型構造,還有一個就是圖片樣本自己所帶有的信息量。
圖片描述

  • 人臉比對

是將兩張人臉照片進行比對,得出類似度;第一張是現場採集的,第二張該如何得來?通常有兩個來源:

1 另一個能表明你身份的載體,好比身份證、行駛證、駕駛證等證件照,這類場景用來作金融開戶、人臉註冊、網約車司機認證等場景,經過現場採集照比對你的證件照信息,確認你就是本人。

2 帳號下已經綁定的人臉:通常須要先輸入帳號,獲取對應人臉。這類場景的典型應用是取代原來的密碼功能,好比刷臉登陸、刷臉支付等。

圖片描述
人臉搜索,是將採集到的人臉,和底庫中的人臉所有進行比對,得出類似度最高的幾張人臉底庫照,並得出類似度,超過必定閾值,則能夠認爲是同一人。

人臉搜索,無需事先獲得人臉照,只須要刷臉便可,在線下門禁等安防領域,線下刷臉支付等應用普遍。固然,不一樣的業務領域中,根據誤識的後果,對人臉搜索的容錯性也不同;好比在工地人臉識別中的容錯率,就要比在刷臉支付中的容錯率要低。

須要說明的是,人臉搜索的準確率,是要結合人臉底庫中人臉照片的數量來的,底庫中人臉照片越多,識別準確率越低。這個和人同樣,在2~3我的中,找出你曾經認識的人,比較容易;可是上百萬我的,則長相類似的人也越多,辨識更困難。目前業界作的好的通常是百萬級別的人臉庫,識別準確率在95%以上

圖片描述

2.2 從工具到社交,娛樂至上

互娛應用,也深深契合着行業發展。

起初隨着智能手機興起,人們的自拍分享需求漸漸旺盛,美顏濾鏡,做爲與手機硬件深度結合的產品,見證着人們變美的時代,此時,算法主要由第三方算法公司提供。

隨着4G時代帶來,短視頻社交成爲人們生活熱點,美顏濾鏡、貼紙也應用於各大互娛平臺中,併成爲不可分割的一部分;對於短視頻內容生產者來講,甚至已成爲核心競爭力。所以,諸如快手、抖音等平臺,都以自研算法,並結合客戶羣畫像,獨自研發。

  • 濾鏡美顏

是圖像美化中必不可少的步驟, 所謂濾鏡,最初是指安裝在相機鏡頭前過濾天然光的附加鏡頭,用來實現調色和添加效果。2008年,美圖一炮而紅,人們發現,原來濾鏡還能夠這麼玩,自此,美顏濾鏡開始了從工具到美學定義者的轉變。

早起的傳統算法,主要是先使用人臉特徵關鍵點算法,勾畫有效區域,而後在不一樣的區域進行亮度提高、去噪聲等算法,實現美顏濾鏡。

隨着深度學習的興起,研究人員們開始更關注結果,設計師將原圖P成美化完成後的結果圖,並用於訓練。人們美顏後,究竟想變成什麼樣?研究重心也開始偏移。

圖片描述

  • 貼紙,人臉融合

則是更高階的玩法。核心仍是人臉特徵關鍵點,對於貼紙和人臉融合來講,關鍵點的數量越多越好,對齊的越準確。人臉融合,則是將兩張人臉的關鍵點進行融合。

圖片描述

2.3 不斷進取,跨越感知智能

人工智能承載了業界對於世界改造的指望,必定程度上說,屬性識別、視線估計、gan等,從感知智能程度上往前更進了一步,可是由於技術不夠成熟、商業應用領域狹窄等緣由,至今未獲得大規模商業應用。能夠說,視覺AI想跨越到認知智能,AI與AI之間相互融合,依然還有很漫長的路要走

屬性識別,年齡、性別,高興、悲傷、憤怒等情緒,獲取用戶更多維的數據,豐富用戶畫像、個性化推薦、廣告展現等等場景,聽着很美好,對不對?畢竟在數據爲王的時代,數據就是價值。可是,商用化仍是存在技術硬傷,識別準確率也就70%左右。

近日,美國等5名專家,耗時兩年,查閱1000多項研究,在論文《再論人類情感表達:從人類面部表情辨別情緒的方法論面臨的挑戰》(論文原名爲:《Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements》)中表示:人類情緒的表達方式及其豐富複雜,很難靠簡單的面部表情識別,人們生氣時,在平均不到30%的時間裏他們會皺眉,故皺眉不等於憤怒,皺眉知識「憤怒」的衆多表達方式之一。同時,表情和語言、情境的相關關係也很是大。

圖片描述

視線估計,和人臉特徵關鍵點比較像,檢測完人臉以後,再檢測人眼以及眼球,並鎖定眼球中心等關鍵點位置,根據座標來鎖定視線方向。主要應用於課堂上,評估學生注意力;AR VR等新型硬件交互,經過視線方向,自動切換視頻中的位置等;廣告投放,評估行人對廣告的注意力;目前而言,市場體系仍是比較小,未獲得大規模應用

圖片描述

gan,全稱爲生成對抗網絡,初衷是生成不存在於真實世界中的數據,使得AI具備創造力或者想象力,也是目前AI領域一個比較熱門的研究方向。

gan的核心網絡分爲生成器與判別器;生成器負責憑空捏造數據,判別器負責判斷數據是不是真數據;兩個核心網絡相互博弈,直至動態平衡,讓生成的數據無限逼真與真實數據。

圖片描述

如圖,隨機噪聲就是隨機生成的一些數,也就是gan生成圖像的源頭。

生成器根據一串隨機數生成一個假圖像,並用這些假圖去欺騙判別器

而判別器經過真圖和假圖的數據(至關於自然的label),進行一個二分類神經網絡訓練,並判別輸入的是真圖仍是假圖,給出一個分值。

舉個例子,真圖是一系列的人臉照。起初,生成器生成的的照片,確定是亂七八糟的,可是判別器會去判斷打分,告訴生成器,你生成的不是真圖(人臉照),因而生成器根據深度學習,反向傳播等,不斷去修改本身的圖片,而後,生成的圖片會愈來愈趨近於真實人臉,直至動態平衡。

gan受到關注,不少緣由,好比:
1 自己是無監督的。目前人工智能的絕大部分可以商業應用算法都是監督算法,所謂監督算法,就是須要海量的樣本,並進行人工標註,人爲去告訴深度學習網絡是是否正確,並傳播訓練,因此行業也有「有多少人工,就有多少智能」的調侃。
2 讓AI具有想象力,好比將模糊圖變清晰(去雨、去霧、去抖動、去馬賽克等),能腦補情節
不少paper都在研究gan的發展前景。

3 寫在最後

任何技術,也都遵循着從技術發展—>技術成熟—>商業落地的發展規律

技術的池子不斷創新,同時商業也從技術池中,探索合適的技術,改造世界;

人臉識別做爲一項複合性技術,既擁有如今,同時也在不斷開拓將來。雖然困難重重,但前景使人心動。

相關文章
相關標籤/搜索