機器學習把奧巴馬識別成白種人!AI 也有種族「偏見」?

機器學習把奧巴馬識別成白種人!AI 也有種族「偏見」?.png

技術編輯:芒果果丨發自 思否編輯部
SegmentFault 思否報道丨公衆號:SegmentFault算法

做爲美國曆史上的第一位黑人總統,奧巴馬的膚色有太多意義。segmentfault

但在一次 AI 生成的圖像中,將奧巴馬低分辨率的照片輸入後,輸出的倒是一位白人圖片。機器學習

這難道說明了 AI 研究也有根深蒂固的偏見? 工具

不只僅是奧巴馬,經過一樣的算法輸入低分辨率的女演員 Lucy Liu 的照片或女議員 Alexandria Ocasio-Cortez 的照片生成的圖像面孔看起來明顯是白色的。性能

國外社交網站一則推文引用了奧巴馬的例子說:「這張圖片充分說明了人工智能存在偏見的危險。」學習

image.png

image.png

AI 算法生成逼真「假臉」

可是,是什麼致使了這些結果,它們真正告訴咱們人工智能的偏見是什麼?測試

首先,咱們須要對這裏使用的技術有所瞭解。生成這些圖像的程序是一種叫作 PULSE 的算法,該算法使用一種稱爲「升級」的技術來處理視覺數據。動畫

這種技術就像你在電視和電影中看到的畫面,經過「放大和加強」使視覺效果更強。可是,不像好萊塢大片中的特效畫面,軟件不能無中生有地產生新的數據。 爲了將低分辨率圖像轉換爲高分辨率圖像,軟件必須使用機器學習來填補空白。網站

就 PULSE 而言,進行這項工做的算法是 StyleGAN,它是由 NVIDIA 的研究人員建立的。雖然算法不是每一個人都能瞭解的,但它生成的「做品」卻被不少人熟知並使用。這個算法生成的怪異逼真的人臉能夠在許多網站上找到,而且常常被用來生成虛假的社交媒體我的資料。 人工智能

image.png

PULSE 所作的是使用 StyleGAN 來「想象」高分辨率的像素化輸入。 它不是經過「加強」原來的低分辨率圖像,而是經過生成一個全新的高分辨率的臉,當像素化時,看起來和用戶輸入的同樣。

這意味着每張去像素化的圖片均可以經過多種方式進行高倍放大,就像同一套食材能夠作出不一樣的菜餚同樣。這也是爲何你可使用 PULSE 看到遊戲、動畫甚至表情符號生成高分辨率的人像圖。算法經過尋找圖像中的細節創造新的面孔還原到輸入數據中。

image.png

這種算法已經使用了幾年時間,可是,就像人工智能領域常常出現的狀況同樣,當一個易於運行的代碼版本在網上被分享時,它會吸引更多用戶。從而衍生出更多社會問題,包括種族差別問題。

訓練數據集致使算法結果的偏向性

PULSE 的建立人表示,當使用該算法放大像素化圖像時,該算法更常常生成具備白人特徵的臉部,這一趨勢很明顯。他在 Github 上寫道: 「看起來 PULSE 生成白人面孔的頻率要比生成有色人種面孔的頻率高得多。這種偏見極可能是從 StyleGAN 所訓練的數據集中繼承而來的,儘管可能還有其餘咱們不知道的因素。」

換句話說,因爲 StyleGAN 所接受的數據訓練,當它試圖想出一張看起來像像素化輸入圖像的臉時,它默認爲白色特徵

這個問題在機器學習中很是廣泛,這也是人臉識別算法在非白人和女性面孔上表現較差的緣由之一。 用於人工智能訓練的數據每每傾向於單一的人口統計學,即白人男性,當一個程序看到的數據不在這我的口統計學中時,它表現得不好。 並不是巧合的是,在人工智能研究中占主導地位的是白人男性。

可是,奧巴馬的例子究竟揭示了什麼樣的偏見,以及它所表明的問題是如何解決的,這些都是複雜的問題。

在技術層面上,一些專家甚至不肯定這是不是數據集誤差的一個例子。 人工智能學者馬里奧 · 克林格曼認爲,是 PULSE 選擇算法自己,而不是數據,形成了這一切。 克林格曼指出,他可以使用 StyleGAN 從同一張像素化的奧巴馬圖像中生成更多非白色輸出,以下所示:

image.png

克林格曼表示,這些人臉是使用「相同的概念和相同的 StyleGAN 模型」生成的,但使用的是 PULSE  的不一樣搜索方法。他表示,咱們不能僅僅從幾個樣原本判斷算法。 他說:「可能有數百萬張可能的臉都會歸結爲一樣的像素模式,全部的臉都一樣‘正確’。」

(順便說一句,這也是爲何像這樣的工具不太可能被用於監視目的的緣由。 這些過程建立的面孔是想象的,而且,如上面的例子所示,與輸入的基本事實沒有什麼關係。 然而,這並非說過去巨大的技術缺陷阻止了警察採用技術。)

可是,無論緣由是什麼,這個算法的輸出彷佛有誤差ーー在這個工具被普遍使用以前,研究人員沒有注意到這一點。 這說明了一種不一樣的、更廣泛的偏見: 一種在社會層面上起做用的偏見。

學界爭論,是數據不正確仍是社會不公正?

人工智能責任研究員 Deborah Raji 認爲,這種偏見在人工智能領域太典型了。他說:「鑑於有色人種的基本存在,忽視對這種狀況的測試是使人震驚的,這可能反映了咱們在誰來建造這種系統方面繼續看到的缺少多樣性。有色人種不是局外人。 咱們不是做者能夠忘記的‘邊緣案例’。」

事實上,一些研究人員彷佛只熱衷於解決數據方面的偏見問題,這引起了關於奧巴馬形象的更大爭論。 Facebook 首席人工智能科學家 Yann LeCun 成爲了這些對話的引爆點,他在推特上回應了這張圖片,稱「當數據存在偏見時,機器學習系統是有偏見的」 ,並補充說這種偏見「在部署的產品中比在學術論文中」是一個更嚴重的問題 其含義是: 讓咱們不要過度擔憂這個特殊的例子。

包括 Deborah Raji 在內的許多研究人員對 Yann LeCun 的見解提出了質疑,並指出人工智能中的偏見受到更普遍的社會不公正和偏見的影響,僅僅使用「正確」的數據並不能解決更大的不公正。

其餘人指出,即便從純技術修復的角度來看,「公平」的數據集一般也能夠是非公平的。 例如,一個準確反映英國人口統計特徵的人臉數據集將以白人爲主,由於英國主要是白人。 根據這些數據訓練的算法在白人臉上比在非白人臉上表現更好。 換句話說,「公平」的數據集仍然能夠建立有誤差的系統。 (在隨後的 Twitter 帖子中,Yann LeCun 認可人工智能偏見有多種緣由。)

Deborah Raji 稱,他對 Yann LeCun 的見解感到驚訝,Yann LeCun 建議研究人員應該比生產商業系統的工程師更少地擔憂偏見,這反映了行業最高層對此缺少認識。

image.png

Deborah Raji 說:「Yann LeCun 領導着一個行業實驗室,這個實驗室致力於許多他們常常尋求產品化的應用研究問題。我實在沒法理解,處於這種地位的人怎麼會不認可研究在創建工程部署規範方面的做用。」

「正確」的數據治標不治本,AI 研究應更關注「人」

許多商業人工智能系統都是直接根據研究數據和算法構建的,沒有對種族或性別差別進行任何調整。 在研究階段不能解決偏見問題只會使現有的問題永久化。

所以,從這個意義上講,奧巴馬形象的價值不在於它暴露了單一算法中的一個缺陷,而在於它在直覺層面上傳達了人工智能偏見的廣泛本質。 然而,它所隱藏的是,偏見的問題比任何數據集或算法都要深入得多。 這是一個廣泛存在的問題,須要的不只僅是技術上的修復。

正如研究人員 Vidushi Marda 在 Twitter 上對該算法產生的白種人臉作出的迴應: 「若是須要明確說明的話——這不是在呼籲數據集中的‘多樣性’或性能上的‘改進準確性’——這是在呼籲從根本上從新考慮設計、開發和部署這項技術的機構和我的。」

segmentfault 公衆號

相關文章
相關標籤/搜索