麻省理工學院在近日發出通知,永久下線著名微小圖像數據集 Tiny Images Dataset ,緣由是被指出涉嫌種族歧視和女性歧視。網絡
麻省理工學院(MIT)近日發佈了一則致歉聲明,宣佈將 Tiny Images Dataset 數據集永久下架,並向全社會呼籲共同停用並刪除這個數據集,已有該數據集的用戶不要再向他人提供。併發
近一年內,已經有數個由企業和科研機構發佈的知名數據集,遭到下架或永久封禁的處理,其中包括微軟的 MS Celeb 1M 名人數據集、杜克大學發佈用於行人識別的 Duke MTMC 監控數據集、和斯坦福大學發佈的人頭檢測 Brainwash 數據集。工具
此次下架的 Tiny Images Dataset 圖像數據集由 MIT 在 2006 年開始立項併發布。正如其命名,這是一個微小圖像數據集。學習
包含 7930 萬張 32 * 32 像素的彩色圖像,基本採集自 Google Images。搜索引擎
數據集較大,文件、元數據和描述符以二進制文件形式存儲,需使用 MATLAB 工具箱和索引數據文件進行加載人工智能
整個數據集近 400 Gb 大小,數據集規模之大,也讓該數據集成爲計算機視覺研究領域中,最熱門數據集之一。spa
與該數據集同時發佈的論文 _《80 million tiny images: a large dataset for non-parametric object and scene recognition》_,這篇論文的可查詢引用,也高達 1718 次。設計
讓 Tiny Images Dataset 圖像數據集陷入風口浪尖的,正是在近期發佈的一篇論文《Large Image Dataset: a pyrrhic win for Computer Vision?》(大型數據集:是計算機視覺的隱藏殺器?)3d
論文對這些大型數據集的合規性,提出了強烈的質疑。blog
論文地址:https://arxiv.org/pdf/2006.16...
兩位做者,一位是 UnifyID 的首席科學家 Vinay Prabhu 。UnifyID 是硅谷的一家人工智能初創公司,爲客戶提供用戶身份驗證的解決方案。
另外一位做者是都柏林大學的博士學位候選人 Abeba Birhane。
論文主要以 ImageNet-ILSVRC-2012 數據集爲例,做者發現數據集中包含少數偷拍(好比海灘中偷拍他人,甚至包含隱私部位)的圖像,認爲因爲審覈不嚴格,這些圖片嚴重侵犯了當事人的隱私。
和 ImageNet 涉嫌侵犯隱私不一樣,論文中對 Tiny Images Dataset 進行聲討緣由是:數據集中有數萬張種族歧視、女性歧視標籤的圖像。
並指出 Tiny Images Dataset 因爲未經任何審覈,存在的歧視、侵犯隱私的問題更加嚴重。
Tiny Images Dataset 部分選取
這就要說到 Tiny Images Dataset 是基於 WordNet 的規範進行標記,把近八千萬張圖像分爲 75,000 個類別。
也正是由於 WordNet 的部分標記,讓數據集遭受了質疑。
衆所周知,WordNet 由普林斯頓大學認知科學實驗室的心理學家、語言學家和計算機工程師聯合設計,自 1985 年發佈以來,一直做爲英文世界裏最規範、全面的英語詞典系統。
規範、全面的意思就是:客觀地採集人類社會裏存在的英文詞彙,並賦予其理解和關聯。
在 Tiny Images Dataset 中,採用了 WordNet 中的 53,464 個不一樣名詞,來做爲圖片的標籤。
數據集中涉及種族、性別的敏感詞統計
也正由於如此,直接引用人類社會存在的表達,就不可避免地引入一些涉及種族歧視、性別歧視的詞彙。
好比,表示明確侮辱或貶義的詞彙 _Bi*ch、Wh*re、Ni*_g_er_ 等等,均成爲了圖片的相關標籤,除此之外,還有一些主觀判斷性的稱謂,好比 molester 猥褻者、pedophile 戀童癖 等。
做者認爲大型圖像數據集,不少在建設之初,並無仔細衡量社會影響,會對我的權益構成威脅和傷害。
由於信息開源的當下,任何人均可以利用開放 API 運行一段查詢,來定義或判斷 ImageNet 或其餘數據集中人類的身份或畫像,這對當事人來講確實是危險,也是侵犯。做者也給了三點解決方向:
一是合成真實和數據集蒸餾,好比在模型訓練期間使用(或加強)合成圖像來代替真實圖像;
二是對數據集強化基於倫理道德的過濾;
三是定量數據集審計,做者對 ImageNet 進行了跨範疇的定量分析,用來評估道德違規的程度,也用來衡量基於模型註釋的方法其可行性。
由於輿論壓力,或是自我覺察而主動下架的數據集,MIT 並非第一家。微軟早在 2019 年中,就下架了著名的 MS Celeb 1M 數據集,並宣佈再也不使用。
MS Celeb 1M 數據集是由網絡中找到 100 萬個名人,根據受歡迎程度選出 10 萬個,而後利用搜索引擎,每一個人挑出的大約 100 張圖片,所獲得的數據集。
MS Celeb 1M 數據集
MS Celeb 1M 常被用來作面部識別的訓練,最先該數據集服務於 MSR IRC 比賽,這也是世界上最高水平的圖像識別賽事之一,包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,也都使用這個數據集。
一位研究人員指出,這涉及到人臉識別圖像數據集的倫理,起源和我的隱私等問題。由於這些圖片均來自網絡,雖然微軟表示是根據「知識共享許可 C.C 協議」,來抓取和得到這些圖像的(照片中的人物並不必定受權許可,而是版權全部者受權)。
根據協議,能夠將照片用於學術研究,但微軟發佈數據集後,卻並不能有效監督數據集的使用。
除了 MS Celeb 1M 數據集,還有杜克大學發佈用於行人識別的 Duke MTMC 監控數據集、和斯坦福大學發佈的人頭檢測 Brainwash 數據集。
近期甚囂塵上的 black lives matter 種族平權運動,讓歐美各界陷入慌亂,計算機學界、工程界也有不斷地討論、紛爭和反思。
最初,以 Github、Go 語言爲表明的企業和組織,開始對命名規範,進行了修改,好比應避免使用「Blacklist」和「Whitelist」一詞,而應使用中性詞「Blocklist」和「Allowlist」,又或者將默認分支名稱從「master」更改成「trunk」。
又有深度學習先驅 Lecun 被指涉嫌種族歧視、性別歧視的言論,主動退出 Twitter。
如今,政治正確的矛頭或將對準大型數據集。
誠然,大量數據集在設計之初,有不少欠缺考量、未完善的部分。可是在當前條件下,直接下架相關數據集,也不是最好的解決偏見的辦法。
畢竟這些圖片,並不只存在於這些數據集中,這些偏見,也不只僅是 WordNet 裏的幾個詞。
下架了數據集,圖片依然在互聯網各個角落,停用了 WordNet ,這些詞也依舊在人們的觀念裏。想要解決 AI 的偏見,仍是得重視起社會文化中長期存在的偏見。
Lecun:就這麼幾條推特,我就退圈了(攤手)
下載地址:https://hyper.ai/datasets/5361
提示:該數據集存在合規爭議,請謹慎使用。
—— 完 ——