無需打字、無需搜索表情,只需對着手機微笑,就能發出微笑表情包。算法
一樣的,對着手機皺眉,就能發出皺眉表情包。express
以上功能來自一款名爲 C-Face 耳機的設備,它誕生於康奈爾大學華人科學家張鋮的 SciFi 實驗室。他近日以通信做者身份在 UIST 2020(User Interface Software and Technology)會議上發表了這項研究,論文名爲《即便戴着口罩耳機也能夠跟蹤面部表情》(Earphone tracks facial expressions, even with a face mask)。網絡
圖 | 張鋮(來源:受訪者)機器學習
除張鋮以外,論文第一做者還有來自北京大學、目前在康奈爾大學訪問的本科生陳拓潮。ide
論文表示,該耳機可經過觀察臉頰輪廓,來連續跟蹤面部表情,並能把表情轉換爲表情符號、或無聲語音命令。DeepTech 聯繫到張鋮,並就該耳機和其進行了深刻交流。學習
圖 | 耳機的展現視頻測試
他表示,C-Face 耳機是實驗室系列研究的其中一款設備。該系列研究主要探索信息的獲知,若是缺少信息,計算機就很難理解人類動機和行爲。而 SciFi 實驗室的長期工做,是致力於提高人機交流,可是第一步,計算機須要獲取到信息。優化
攝像頭是獲取信息的最經常使用手段之一,好比在室內外佈置攝像頭,而且攝像頭必須沒有遮擋,這就致使傳統的 「攝像頭方法」 會在某些場景中失靈。好比,在獲取臉部表情時,是用攝像頭直接 「捕捉」 人臉,但用戶在外面時,不可能時刻臉部對着攝像頭。人工智能
而本次的 C-Face 耳機,正是一款可用於實時獲取臉部信息的耳機。其原理是,因爲人臉有不少肌肉,肌肉之間相互鏈接,臉部在作不一樣表情時,其餘肌肉也會被牽動,嘴巴、眼睛和眉毛的位置與形狀也會發生變化。基於此,經該實驗室的設計後,耳機可經過比較容易捕捉到的肌肉變化來推測出面部表情。設計
圖 | 不戴口罩時戴着耳機作表情
因爲新冠疫情的影響,研究人員只能在 9 名參與者的狀況下測試耳機。儘管如此,表情符號的識別準確度仍然超過 88%,面部提示的準確度超過 85%。
圖 | 戴口罩時戴着耳機作表情
具體來講,耳機內置兩個迷你攝像頭,它們能夠捕捉到側面臉頰形狀,並經過臉頰形狀來判斷你的臉部表情。由於人在執行面部特徵時,面部肌肉組織就會拉伸和收縮,進而推進和拉動毛孔和皮膚,並對面部肌肉組織的緊繃產生影響,這種影響會致使臉頰輪廓發生改變。
圖 | 黑色部分爲攝像頭
在耳機中,攝像頭能夠傳輸數據,數據會傳輸到微處理器(Raspberry Pi),微處理器收集數據,並把它發到計算機上,這時深度學習算法就能開始工做。
深度學習在耳機中的應用
不少狀況下,深度學習在數據上的效果,比傳統機器學習的效果更好。本次耳機之要想實現根據側臉和臉頰形狀來推斷整個面部表情,其實並不容易,由於每一個人的側臉都不同。
所以,就得經過深度學習來採集訓練數據,具體作法是先採集到用戶臉頰變化狀況,並結合前置攝像頭來捕捉面部表情,以標記出相對應的臉部表情。
這至關於攝像頭每一幀圖片,都有一個對應的面部表情。採集到訓練數據後,研究人員就能發掘出不一樣臉頰形狀與面部表情間的複雜對應關係。
圖 | 訓練深度學習
張鋮表示,深度學習的好處是能經過複雜學習,來學習一些人類不擅長的技能。有的技能人類很擅長,好比一眼就能識別某些物體。但有些技能人類並不擅長,好比只根據側面臉頰,咱們很難判斷出臉部所有形狀。
深度學習的能力是,可經過算法找出事物間的複雜聯繫,從而根據側部面頰,準確推斷出面部表情。
具體工做時,在攝像機捕獲圖像後,計算機視覺和深度學習模型會對其進行重建。因爲原始數據是二維的,所以卷積神經網絡(一種擅長對圖像進行分類、檢測和檢索的人工智能模型)有助於將輪廓重構爲表達式。
此外,該模型可將臉頰圖像轉換爲 42 個面部特徵點,它們分別表明受表情變化影響最大的部位,如嘴巴、眼睛、眉毛等。
這 42 個特徵點表明的面部表情,也可用於推測出 8 個表情符號,包括 「無表情」「生氣」 和 「 Kissy-face」,另外還有 8 個可用於控制音樂設備的靜音語音命令,如 「播放」 ,「下一首」 和 「音量增大」 等。
圖 | 靜音語音命令
相比傳統方法用前置攝像頭來識別表情,C-Face 耳機的獨特優點是戴着口罩也能被耳機捕捉到表情,即攝像機無需對着人臉,只需觀察從耳朵到側面臉頰的形狀就能識別表情。
由於即便你戴着口罩(超大口罩除外),側面臉頰形狀並不會發生巨大改變,這時深度學習仍然能夠工做。
圖 | 帶上口罩時,深度學習依然能夠工做
作個嘴型就能發出指令
本次研究還展現了 C-Face 耳機的兩大功能:無聲語音識別和前文的輸入表情包。
無聲語音識別指的是,通常的語音識別,都是經過聲音來識別。若是不經過聲音,是否也能識別?由於,假如你在開會、看電影等場合,忽然說話就會很奇怪。再就是,當週圍有不少噪音,即使說話也沒法識別。
而 C-Face 耳機可經過分析用戶表情,來識別沉默的語音指令。這一功能的常見應用場景有,當你跑步時只需作個嘴形,相關智能設備就能以很是私密的方式,來獲悉你的指令。
另外一個能夠想象的應用場景是健康預測,張鋮表示,將來該耳機有望連續記錄表情。得到大量表情數據後,就可獲知用戶天天的心情情況。這樣大量的情緒信息,還可幫助計算機瞭解用戶的精神健康情況。
兩款耳機:入耳式和頭戴式
本次耳機分爲兩款:入耳式和頭戴式,功能上它們很是相似。張鋮表示,它們所屬項目都叫 C-Face,該項目並不侷限於某一種特定的設備,只是在本次論文中展現了入耳式耳機和頭戴式耳機。
惟一的區別是,兩種耳機的攝像頭位置略微不一樣。頭戴耳機相對大一點,有較大空間放攝像頭。
談及耳機是否可用於 VR 遊戲,張鋮表示,常常有人問他這個問題,而他的答案一直是 Yes or NO。
即固然能夠用在 VR 上面,但以他了解到的最新技術來講,VR 眼鏡已有更好的解決方案。
VR 眼鏡自己已經很大,經過在上面加設備來捕捉人的表情,此前已經有人作過。而 C-Face 耳機的好處是它很是小,平常能夠進行穿戴。所以,他以爲 VR 眼鏡不必定是 C-Face 耳機最核心的爆點。
他舉例稱,該實驗室的耳機能夠潛在地提供視頻聊天功能。如今的視頻聊天,都須要用戶面前放置一個攝像頭 (桌子上或者手舉着)。
但若是用耳機來聊天,耳機本身就能捕捉你的面部表情,你也不須要把攝像頭對着臉,你的朋友時時刻刻都能看到你的臉,包括走路時、開車時、甚至作飯時均可以跟人聊天。
解決功耗問題,就能加速落地
談及商業落地,張鋮表示本次論文發表後,有廠商已經和他們聯繫討論一些初步的合做可能性。但想在短時間內實現到現有設備,最須要解決的仍然是可穿戴設備上的功耗問題。而這一難題,超出了該實驗室的能力,所以須要工業界投入資金去優化功耗問題。
目前的耳機,是研究人員買來零件組裝的,攝像頭能夠選配,只是價錢和分辨率會有區別。在零件的選擇上,他們未作太高要求,目的是讓設備更快速落地成產品。
他認爲,該實驗室作這款設備,更可能是着眼於將來。他們作研究的目的,更可能是描述研究人員眼中的將來可能性。
張鋮表示,將來的攝像頭可能會變得很是小、功耗也很是低。儘管如今的耳機只是實驗室設備,可是若是能耗問題得以解決,它有可能在 5 到 10 年後實現應用。
若是想把小型攝像頭利用到現有設備上,能耗是個很大的問題。由於,攝像頭會耗電,處理攝像頭數據也會耗電,這是該設備的最大侷限性。
就落地爲產品來講,頭戴式耳機短時間內可能相對方便一點,由於它能夠放置更大的電池。對於入耳式耳機,該實驗室將來也會尋找更加低功耗的方法來解決問題。
由於若是把攝像頭裝在耳機上,那麼攝像頭的耗電量確定比耳機多。這種狀況下,不管產品有多麼酷炫,若是使用十分鐘就沒電了,也不會有人願意購買。
若是想快速推出該耳機,可能只能先實現一部分功能,由於工業界作產品都有一個提早週期,好比要想如今發佈一款產品,可能兩年前就得開始規劃。
與此同時,該實驗室並不侷限於耳機,他們關注的是 「無處不在的計算和人機交互」,將來還有可能研發出智能耳環、智能衣服,而他們的願望就是讓彷佛沒法智能的物體也變得智能起來。
-End-