翻譯 | AI科技大本營(rgznai100)
參與 | 周翔、reason_W、shawn
隨着 iPhone X 的發佈,利用深度學習進行人臉識別預計將逐漸成爲智能手機的標配。然而,除了身份認證以外,最近還涌現出不少研究,探討經過「刷臉」是否能預測人的性格,甚至是人的行爲。算法
2016 年年末,上海交通大學的武筱林教授和他的博士生張熙發表了一篇論文——《基於面部圖像的自動犯罪機率推斷》。該研究認爲,經過學習,機器能夠經過照片分辨出誰是罪犯,誰是守法公民,且準確率在86%以上。數據庫
這篇論文在 AI 界引發了軒然大波:
人的面部特徵真的能用來預測人的行爲和性格嗎?這種研究真的不涉嫌歧視嗎?
近日,斯坦福大學助理教授 Michal Kosinski 及研究生 Yilun Wang 的一篇論文——《在經過面部照片判斷我的性取向的問題上,深度神經網絡比人類更準確》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images),一樣引發了極大的爭議。
這項研究發現,在「識別同性戀」的任務中,深度神經網絡的表現要比人類更好,前者的準確率在男性中爲 61%,在女性中爲 54%。安全
此外,最可能爲男同性戀者的典型臉部特徵更趨於女性化,而女同性戀者則更男性化。一般,男性的下巴較寬,鼻子較短,前額較小;而男同性戀者下巴較窄,鼻子較長,前額較大,臉部毛髮較稀少。相反,女同性戀者的臉部一般比女異性戀者的臉部更像男性臉部(下巴較寬,前額較小)。並且,同性戀者和異性戀者在梳洗打扮方面確實不一樣。網絡
這項刊登在著名的心理學期刊上的研究成果,遭到了史無前例的批評,除了學術界的質疑,該論文做者還受到各類謾罵,甚至收到了威脅郵件。
「from Max:On Sep 10, 2017, at 00:06
你好,
我剛剛讀完你的關於檢測人類性取向的深度學習項目。我認爲這樣的一個研究是要被禁止的。一我的的性取向應該是他或她的隱私。
你確定知道在一些國家,同性戀是犯罪行爲。因此我認爲你是一個支持謀殺同性戀者的恐同混蛋。若是不是,請你銷燬全部跟這個話題有關的工做,不然,我但願能來我的殺了你,由於你的工做將使不少人受到折磨,甚至死亡。
請你拿起刀,給本身來個痛快吧!
Best wishes, Max ****」
對於這封「死亡信件」,論文做者是這樣回覆的:
「親愛的 Max,
您說您讀了個人項目,但您真的理解這個項目嗎?在送我去死以前,您能不能抽點兒時間,真正讀一讀您寫給個人您想要另外一我的去死的那段話。僅僅根據傳聞去評判別人,無論您是否是 LGBTQ (編者注:LGBTQ=lesbian(女同性戀), gay(男同性戀), bisexual(雙性戀),transgender(跨性別), queer(非異性戀或不認同出生性別的人)),都不該該口出此言。
若是您真的讀了個人項目並想提供您的想法/意見,我將倍感榮幸。我也真的很珍惜。並且,若是在認真讀完以後,您仍然但願我自裁,那我就有可能更加認真地對待這樣一個有根據的要求。
您能夠在這裏找到這個文件:https://osf.io/fk3xr/
您也能夠從個人筆記開始:
https://docs.google.com/document/d/11oGZ1Ke3wK9E3BtOFfGfUQuuaSMR8AO2WfWH3aVke6U
Warm wishes, Michal」
爲了消除外界的質疑,論文做者對網上的各類批評一一回復,AI科技大本營對其原文進行了不改變原意的編譯。看完這些回覆,或許你會對做者的研究初衷和研究成果會有更深入的理解,甚至會對同性戀的成因和表現形式有必定的瞭解。
1、研究結果總結
咱們並無建立一個侵犯隱私的工具。咱們只是研究了已經被科技公司和政府部門普遍使用的現有技術,並判斷它們是否存在侵犯 LGBTQ 人羣我的隱私的風險。
使人不安的是,咱們發現這些技術確實存在這樣的風險。
咱們的工做其實頗有限:咱們只研究了自稱是同性戀或者異性戀的人羣。然而,這些限制並不會讓研究成果或者其傳遞的核心信息無效:普遍使用的技術對 LGBTQ 人羣的我的隱私構成威脅。
在反駁以前,但願大家可以考慮這些證據。
在進行的 7 項研究中,咱們展現了一種能夠經過人臉準確檢測這我的的性取向的算法。若是有兩個測試對象:男同性戀者和直男,或者女同性戀者和直女,咱們的算法 91% 的時間能正確區分男同性戀者和直男,83% 的時間可以正確區分女同性戀者和直女。
要知道,乳腺鉬靶X線影像的準確率才 85%,帕金森病現代診斷工具的準確率也才 90%。
咱們的數據集包括 35000 張同性戀以及異性戀的圖片,這些圖片都來自一個公開的數據集,並且用戶本身已經標記了本身的性取向。在一個圖像子集上,咱們的算法取得了史無前例的精度。咱們確保算法的預測不受年齡和種族差別的影響。
此外,咱們還對 Facebook 我的資料圖片的獨立樣本進行了測試,並取得了相近的結果。
相比之下,人類的判斷並不比隨機猜想更準確。咱們認爲,這是 AI 賽過人類的又一個例子。這項研究通過了同行的評審,並最終在「 Journal of Personality and Social Psychology」(心理學領域的頂尖期刊)上發表。此外,在咱們將這篇論文正式發送給同行進行評審前,已經有十多位性學、心理學和人工智能領域的專家對草稿進行了審查。該研究也已經得到內部審查委員會的批准。
分類器使用的是固態(fixed)和瞬態(facial)面部特徵。同性戀者和異性戀者不只面孔形態不一樣,並且表情和修飾風格也不相同。
你確定錯了——這是僞科學!
咱們獲得了不少這樣的反饋。坦白說,若是咱們的結果是錯的,咱們會很高興。這樣的話,人類會少一個問題,咱們能夠繼續寫寫暢銷書,好比微笑如何讓你更快樂等等。
這些調查結果對隱私有什麼影響?
算法根據人臉來預測人的性取向會形成嚴重的隱私隱患,這是事實。所以,控制何時、向誰透露我的性取向的能力,不只對於人類的福祉,並且對於人類的安全也相當重要。
在某些狀況下,我的性取向被公開可能會危及生命。LGBTQ 社區的成員仍然會受到來自政府、鄰居、甚至家人身心上的虐待。許多國家將同性性行爲定爲犯罪行爲,在某些地方,發生同性性行爲的人甚至會被判處死刑。
發佈這些結果,做者擔憂嗎?
咱們真心對這些結果感到不安,花了不少時間考慮是否將它公開。在結果發佈後,咱們收到了各類警告,這正是咱們當初不肯看到的。
然而,最近的新聞報道顯示,政府和企業已經在使用經過面部來判斷親密特徵的工具。數十億人的面部圖像存儲在數字和傳統的檔案中,包括約會平臺、照片分享網站和政府數據庫。默認狀況下,Facebook、LinkedIn、Google+ 上的我的資料圖片都是公開的。而 CCTV(閉路電視)攝像頭和智能手機均可以在未經許可的狀況下拍攝他人的臉部照片。
咱們認爲, 目前迫切須要讓決策者和 LGBTQ 社區意識到他們面臨的風險。科技公司和政府機構很清楚計算機視覺算法工具的潛力。咱們相信,人們應當瞭解這些風險,並採起適當的預防措施。
在結果發佈以前,咱們確保咱們的工做不會爲那些可能侵犯他人隱私的人提供任何好處。咱們使用了不少現成工具、公開數據和計算機視覺從業者所周知的標準方法。咱們並無建立什麼侵犯隱私的工具,而是想代表,一直以來人們普遍使用的基本的方法都會形成嚴重的隱私威脅。
爲何要研究面部特徵和性格之間的聯繫呢?
就像前面說的那樣,這具備重要的隱私意義。羣衆和政策制定者應當知道他們將面臨的風險,而且應該有機會來採起預防措施。
從科學的角度來看,這種聯繫也頗有意思。識別面部特徵和心理特徵之間的聯繫能夠幫助咱們瞭解普遍的心理、生物和文化現象的起源和本質。不然,許多能夠從人臉很容易估計到的因素——如產前和產後激素水平、發育史、健康、環境因素和基因——都將將難以測量。所以,將面部特徵與其餘現象聯繫起來,能夠幫助咱們產生不少能夠用其餘科學方法進行探索的假設。
將性格特質與面部特徵聯繫起來的潛在機制是什麼?
有三種。首先,性格能夠影響人的臉部外觀。例如,性格比較外向的女性每每隨着年齡的增加,外觀會變得更具吸引力。
其次,面部外觀能夠影響人的性格。例如,好看的人會獲得更積極的社會反饋,所以每每變得更加外向。
第三,許多因素會同時影響人的外觀和個性。包括產前和產後激素水平、發育史、環境因素和基因等等,例如,睾丸素的水平會顯著影響人的行爲(例如權力慾)和麪部外觀(例如面部寬度和麪部毛髮)。
怎樣解釋臉部特徵和性取向之間的關聯?
一般狀況下,科研工做者會使用廣泛承認的產前激素理論(PHT)來預測臉部特徵和性取向之間的關聯。根據 PHT,由於雄性激素負責胎兒的性分化,所以男胎造成同性性取向的成因是因爲其受雄性激素影響不足,女胎則是過分受雄性影響。因爲相同的雄性激素還負責臉部的兩性異形,PHT 預測同性戀者通常具備性別非典型面部形態(gender-atypical facial morphology)。換句話說,男同性戀者的臉部形態趨於女性化,而女同性戀者的臉部特徵通常趨於男性化。
母體產前雄性激素水平還會影響胎兒成年後行爲和取向的性分化。所以,PHT 預測同性戀者通常會選擇性別非典型的面部修飾、表達和打扮方式。

圖1:被歸類爲最多是同性戀者或異性戀者的典型臉部 / 輪廓生成的合成臉部和典型臉部輪廓。
與 PHT 理論的預測一致,最可能爲男同性戀者的典型臉部(見圖1)更女性化,而女同性戀者更男性化。一般,男性的下巴較寬,鼻子較短,前額較小;而男同性戀者下巴較窄,鼻子較長,前額較大,臉部毛髮較稀少。相反,女同性戀者的臉部一般比女異性戀者的臉部更像男性臉部(下巴較寬,前額較小)。
同性戀者臉部的性別非典型特徵不僅體如今形態上。女同性戀者化眼妝以及穿着暴露(衣服領口較低)的狀況一般較少,她們毛髮的顏色更深——女性特徵較不明顯的打扮和風格。另外,女異性戀者通常較常微笑,而女同性戀者則否則。
此外,該理論還印證了美國文化中棒球帽與男子氣概之間的關係:異性戀男性和女同性戀彷佛都喜歡戴棒球帽(觀察圖1人物前額上的陰影;人工檢測單一圖像證實了這一結論的正確性)。
如何解釋該算法的準確性?
該分類器的準確性怎麼樣?分類準確性的解釋很重要,並且結論每每與直覺相反!
假設一個由 1000 名男性組成的樣本,其中包括 70 名男同性戀者,利用準確度爲 AUC=.91 的分類器評定他們的臉部(對比本研究中男性臉部圖像(每人5張圖像)分類實驗)。
分類器雖然不能指出哪一個檢測對象是同性戀,可是能夠標記每一個檢測對象是同性戀的機率。咱們須要決定的是分界點在哪裏——或者說機率超過多少才能將某一對象標記爲同性戀者,這一點很重要。
若是你想選擇少數同性戀者做爲樣本並保持很小的出錯率——將機率最高的少數對象標記爲同性戀者,這樣就能夠獲得很高的準確度(例如,一小部分標記爲同性戀者的對象),可是同時查全率(recall)會較低(例如,會「漏掉」不少男同性戀者)。若是擴大機率範圍,就會「檢測出」更多的男同性戀者,可是被錯誤標記爲同性戀者的異性戀男性也會增多(這就是所謂的「false positives」)。也就是說,追求高準確度會致使查全率下降,反之亦然。
回到包括 70 名男同性戀的 1000 名男性樣本上。若是從這個樣本中隨機選擇 100 名男性,預計其中只有 7 名男性是同性戀——隨機抽樣的準確度爲 7%(樣本中每 100 名男性中有個 7 名是同性戀者)。
用分類器進行分類。根據分類器檢測結果,在是同性戀的機率最高的 100 名男性中,有 47 名是同性戀(準確度 = 47/100 = 47%)。換句話說,分類器能夠將隨機抽樣的準確度提升近7倍。
咱們還能夠經過縮小子樣本進一步提升準確度。在是同性戀的機率最高的 30 名男性中,有 23 名是同性戀(準確度 = 23/30 = 77%; 查全率 = 23/70 = 33%),相比隨機抽樣的準確度,提升了 11 倍(77%/7% = 11)。在同性戀機率最高的 1% 子樣本(即前 10 名)中,被確認的同性戀者有 9 名(準確度爲90%):隨機抽樣的準確度提升了 13 倍。可是實現這麼高的準確度的代價是查全率較低:只有 13% (9/70 = 13%)。要想提升準確度,就必須犧牲必定的查全率。
2、你確定錯了——這是僞科學!
像其餘科學研究同樣,咱們的研究也可能存在不完善的地方。爲此,咱們單列了一些你們關心的問題,並予以回覆:工具
「你確定錯了;這個實驗的對象全是白種人」
雖然咱們力求得到一個更加多樣的樣本,可是本研究的對象僅限於美國境內的白種人。
這並不能證實本研究的結論無效。本研究證實,你能夠區分同性戀者和異性戀者。
雖然本研究並不能證實該結論一樣適用於其餘種族,但咱們發現該結論有適用的可能性。相同的生物學、進化和文化因素促進了同性戀者和異性戀者之間差別的造成,這些因素也極可能會影響其餘種族。
「你確定錯了;該分析未考慮雙性戀者。」
是的,咱們並未探究是否能夠經過臉部預測某一對象爲雙性戀。
但這並不會使咱們的結論失效。咱們仍然證實了咱們能夠區分同性戀者和異性戀者。某些被歸類爲異性戀或同性戀的對象可能其實是雙性戀。不過,糾正此類錯誤可能會提升分類器的準確度。
重要的是,不考慮雙性戀者或變性者並不表明咱們否定他們的存在。
「這確定錯了;研究使用的樣本是公開性取向的約會網站會員」
這是一個合理的限制因素,咱們在論文中圍繞該因素進行了詳細地討論。的確,從約會網站收集的圖像數據彷佛有這樣一個問題:性取向信息特別明顯,可是本研究並不止於此。
首先,咱們用從 Facebook 上收集圖像組成了一個外部樣本,再用這個樣本測試咱們的分類器,結果準確度並不亞於用約會網站圖像作樣本時的準確度。這代表 Facebook 我的檔案圖像與約會網站上的圖像傳達出的性取向信息同樣明顯。
其次,咱們讓研究參與者根據這些對象臉部判斷其性取向。相比以往研究中人類判斷實驗室精心標準化的圖像的準確度,這些參與者的準確度並無好多少。這代表,本研究中使用的圖像性取向信息並非特別明顯——至少,對人類而言是這樣。
最後,本研究使用的深度神經網絡通過了特別訓練,只學習輕易沒法改變的固定臉部特徵,例如臉部元素的形狀。這有助於減少分類器發現研究中同性戀者和異性戀者臉部圖像存在某些與臉部無關的表面差別的風險。
「你確定錯了;衆所周知,臉部特徵和性格特質之間沒有關聯」
不幸的是,這個說法並無依據。
不少研究證實,人類能夠判斷他人的政治觀點、個性、性取向、品質以及其餘特質,可是準確度不高。在判斷這些時,準確度不高並不必定表明臉上沒有體現這些特質的明顯特徵,而是人類可能沒法發現或解釋這些特徵。
「你確定錯了,你的分類器在預測的時候必定選了一些和人臉特徵無關的東西做爲判別依據」
咱們也考慮了不少相關的事情。並且,咱們很是但願將來的研究可以更有說服力地證實或反駁利用人臉來預測性取向的可能性。固然,咱們本身也作了不少努力來提升這項研究的嚴謹性和說服力。

圖3:熱力圖顯示了標記圖像上不一樣的給定部分能夠改變分類結果到什麼程度。學習
其中顏色尺度從藍色(不改變)一直到紅色(發生實質性改變)分別表示不一樣的結果。咱們使用 2D 高斯濾波對顏色編碼的方塊進行了平滑處理。測試
最後,也許最重要的是,分類器發現的男同性戀者和直男在臉部之間的差別與產前激素理論-——一個被普遍接受的解釋性取向起源的理論——的預測結果是一致的。
「你確定錯了;你的研
究結果代表,同性戀者每每是性別不典型——但我明明知道許多性別典型的男同性戀者跟女同性戀者!」
咱們也知道存在不少很是陽剛的男同性戀者和不少頗有女人味兒的女同性戀者。這就好像,咱們知道有不少老男人,但這並不能反駁女性更加長壽的結論。(事實上,咱們在研究中發現)男同性戀者的臉部特徵更有女人味兒並不能說明全部男同性戀者都比直男更有女人味兒,或者說不存在很陽剛的男同性戀者(女同性戀者亦然)。
咱們在研究中觀察到的有關女人味和男人味兒的差別是很微妙的,而且這些差別存在於不少不一樣的臉部特徵中;雖然人類難以察覺,但對靈敏一些的算法來講,這些差別已經很顯而易見了。
「你確定錯了;你實驗中的不少參與者確定在他們的性取向上撒謊了!」
確實,有些跟咱們說他是直男的參與者實際上頗有多是同性戀(反之亦然)。然而,咱們相信,那些自願在約會網站上發佈資料尋找夥伴的人,幾乎沒有在性取向上撒謊的動機。
固然,若是咱們的一些參與者確實在他們的性取向上撒了謊,那麼拆穿他們的謊話將極有可能進一步提升分類的準確性。
「你確定錯了;惟一的緣由是由於同性戀者更在乎本身的形象或者說拍的照片更好看!」
咱們很容易相信,男同性戀者的髮型和鬍鬚造型更好看。就像咱們在論文中討論的那樣,同性戀者和異性戀者在梳洗打扮方面確實不一樣。
然而,他們在形態方面也一樣明顯不一樣。咱們的算法對只提供臉部輪廓的男同性戀者判別的準確率超過了 70%,對於女同性戀者超過了 60%。
原文地址:網站
https://docs.google.com/document/d/11oGZ1Ke3wK9E3BtOFfGfUQuuaSMR8AO2WfWH3aVke6U/edit#google