IMAGENET-TRAINED CNNS ARE BIASED TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES ACCURACY AND ROB...

  • 摘要

  卷積神經網絡(CNN)一般被認爲經過學習對象形狀的日益複雜的表示來識別對象。最近的一些研究代表圖像紋理具備更重要的做用。咱們在這裏經過評估具備紋理-形狀線索衝突的圖像的CNN和人類觀察者來將這些相互矛盾的假設置於定量測試中。咱們代表,ImageNet訓練的CNN強烈偏向於識別紋理而不是形狀,這與人類行爲證據造成鮮明對比,並揭示了根本不一樣的分類策略。而後,咱們證實在ImageNet上學習基於紋理的表示的相同標準體系結構(ResNet-50)可以學習基於形狀的表示,在ImageNet的stylized版本「Stylized-ImageNet」上進行訓練。這爲咱們良好控制的心理物理實驗室環境中的人類行爲表現提供了更好的適應性(共有97個觀察者進行了總共48,560次心理物理試驗的九個實驗),而且具備許多意想不到的突發性好處,例如改進的物體檢測性能和之前在普遍的圖像失真中看不見的穩健性,突出了基於形狀的表示的優勢。git

  • 方法

  在本節中,咱們概述了範式和過程的核心要素。 附錄中提供了便於複製的詳細信息。 此存儲庫中提供了數據,代碼和材料:https://github.com/rgeirhos/texture-vs-shapegithub

  • 心理-物理實驗

  全部的心理物理實驗都是在一個控制良好的心理物理實驗室環境中進行的,並遵循Geirhos等人的範例(2018),其容許在徹底相同的圖像上直接比較人類和CNN分類表現。簡而言之,在每一個試驗中,參與者被呈現300ms的固定方格,而後是300ms的刺激圖像呈現。在刺激圖像以後,咱們呈現全對比度粉紅色噪聲掩模(1 / f光譜形狀)200ms,以最小化人類視覺系統中的反饋處理,從而使前饋CNN的比較儘量公平。隨後,參與者必須經過單擊顯示1500毫秒的響應屏幕來選擇16個入門級類別中的一個。在此屏幕上,全部16個類別的圖標排列在4X4網格中。這些類別是飛機,熊,自行車,鳥,船,瓶,汽車,貓,椅子,時鐘,狗,大象,鍵盤,刀,烤箱和卡車。這些是Geirhos等人提出的所謂的「16類 - ImageNet」類別(2018)。數據庫

  相同的圖像被送到四個在標準ImageNet上預訓練的CNN,即AlexNet(Krizhevsky等,2012),GoogLeNet(Szegedy等,2015),VGG-16(Simonyan&Zisserman,2015)和ResNet-50 (He等,2015)。 使用WordNet層次結構(Miller,1995)-e.g將1,000個ImageNet類預測映射到16個類別。 ImageNet類別虎斑貓將被映射到cat。 總的來講,本研究中的結果基於48,560項心理物理試驗和97名參與者。網絡

  • 數據集

  爲了評估紋理和形狀誤差,咱們進行了六個主要實驗以及三個對照實驗,這些實驗在附錄中描述。 前五個實驗(圖2中可視化的樣本)是簡單的對象識別任務,惟一的區別是參與者可用的圖像特徵:架構

  原始。160個白色背景的天然彩色圖像的對象(每類10個)。性能

  Greyscale。原始數據集中的圖像使用skimage.color.rgb2gray轉換爲灰度。 對於CNN,沿着顏色通道堆疊灰度圖像學習

  Silhouette。原始數據集中的圖像轉換爲輪廓圖像,在白色背景上顯示徹底黑色的對象(有關步驟,請參閱附錄A.6)。測試

  Edges。使用在MATLAB中實現的Canny邊緣提取器將原始數據集中的圖像轉換爲基於邊緣的表示。spa

  Texture。紋理的48個天然彩色圖像(每類3個)。 一般,紋理由動物的全寬貼片(例如皮膚或毛皮)組成,或者特別是對於人造物體,由具備相同物體的屢次重複的圖像組成(例如,彼此相鄰的許多瓶子,參見圖7中的 附錄)。設計

  值得注意的是,咱們只選擇了由全部四個網絡正確分類的對象和紋理圖像。 這是爲了確保咱們在關於提示衝突的第六個實驗中的結果是徹底可解釋的,這在形狀與紋理假設方面是最具決定性的。 在提示衝突實驗中,咱們呈現具備矛盾特徵的圖像(參見圖1),但仍然要求參與者分配單個類。 請注意,對人類觀察者的指示是徹底中立的w.r.t. 形狀或紋理(「點擊您在呈現的圖像中看到的對象類別;猜想是否不肯定。沒有正確或錯誤的答案,咱們對您的主觀印象感興趣」)。

  Cue conflict。使用迭代樣式轉移(Gatys等人,2016)在紋理數據集(做爲樣式)的圖像和來自原始數據集(做爲內容)的圖像之間生成的圖像。 咱們共生成了1280個提示衝突圖像(每一個類別80個),容許在單個實驗會話中向人類觀察者進行演示。

  咱們將「輪廓」定義爲2D中對象的邊界輪廓(即,對象分割的輪廓)。 當提到「對象形狀」時,咱們使用比僅僅對象的輪廓更寬的定義:咱們指的是描述對象的3D形式的輪廓集,即包括不是輪廓的一部分的那些輪廓。 繼Gatys等人以後(2017),咱們將「紋理」定義爲具備空間靜態統計的圖像(區域)。 注意,在很是局部的層面上,紋理(根據該定義)能夠具備非靜止元素(例如局部形狀):例如, 一個瓶子顯然有非平穩的統計數據,但許多瓶子彼此相鄰被認爲是一種質地:「things」變成「stuff」(Gatys等,2017,第178頁)。 有關「瓶子紋理」的示例,請參見圖7。

  • STYLIZED-IMAGENET

  從ImageNet開始,咱們經過剝離其原始紋理的每個圖像,並經過AdaIN樣式轉移(Huang&Belongie,2017)將其替換爲隨機選擇的繪畫風格,構建了一個新的數據集(稱爲Stylized-ImageNet或SIN)(參見 圖3中的示例),其樣式化係數= 1.0。 咱們使用Kaggle的Painter by Numbers數據集做爲風格來源,由於它的風格多樣和大小(79,434幅畫)。 咱們使用AdaIN快速風格轉移而不是迭代風格化(例如Gatys等,2016)有兩個緣由:首先,確保使用不一樣的程式化技術完成SIN訓練和提示衝突刺激測試,結果不會依靠單一的程式化方法。 其次,爲了實現整個ImageNet的風格化,使用迭代方法須要過長的時間。 咱們提供了在這裏建立Stylized-ImageNet的代碼:

https://github.com/rgeirhos/Stylized-ImageNet

  • 實驗結果
  • 人和ImageNet訓練的CNN的內容與形狀偏置對比

  CNN和人類幾乎都能正確識別全部物體和紋理圖像(原始和紋理數據集)(圖2)。 對象的灰度版本仍然包含形狀和紋理,一樣被承認。 當物體輪廓用黑色填充以產生輪廓時,CNN識別精度遠低於人類精確度。 這對於邊緣刺激來講甚至更加明顯,這代表人類觀察者對具備不多或沒有紋理信息的圖像處理得更好。 在這些實驗中的一個混淆是CNN傾向於不能很好地應對域移位,即圖像統計從天然圖像(網絡已被訓練)到草圖(網絡之前從未見過)的大的變化。

  所以,咱們設計了一個提示衝突實驗,該實驗基於具備天然統計的圖像,但與紋理和形狀證據相矛盾(參見方法)。 參與者和CNN必須根據他們最依賴的特徵(形狀或紋理)對圖像進行分類。 圖4中顯示了該實驗的結果。人類觀察者對形狀類別(95.9%的正確決策)的反應表現出明顯偏向.CNN的這種模式是相反的,這顯示了對紋理類別的響應的明顯偏見 (VGG-16:形狀爲17.2%,紋理爲82.8%; GoogLeNet:31.2%對68.8%; AlexNet:42.9%對57.1%; ResNet-50:22.1%對77.9%)。

  • 克服CNNS的紋理偏見

  心理物理實驗代表,ImageNet訓練的CNN,但不是人類,表現出強烈的紋理誤差。 一個緣由多是訓練任務自己:從Brendel&Bethge(2019)咱們知道ImageNet能夠僅使用本地信息以高精度求解。 換句話說,它可能只須要整合來自許多局部紋理特徵的證據,而不是經歷整合和分類全局形狀的過程。 爲了測試這個假設,咱們在Stylized-ImageNet(SIN)數據集上訓練了一個ResNet-50,其中咱們用隨機選擇的藝術繪畫的無信息風格取代了與物體相關的局部紋理信息。

  在Stylized-ImageNet(SIN)上訓練和評估的標準ResNet-50達到了79.0%的前5精度(見表1)。 相比之下,在ImageNet(IN)上訓練和評估的相同架構實現了92.9%的前5精度。 這種性能差別代表SIN是一項比IN更難的任務,由於紋理再也不是預測性的,而是一種使人討厭的因素(根據須要)。 有趣的是,ImageNet的功能很難歸納爲SIN(只有16.4%的前5精度); 然而,在SIN上學到的特徵很好地歸納了ImageNet(82.6%的前5精度,沒有任何微調)。

  爲了測試局部紋理特徵是否仍然足解決SIN,咱們評估所謂的BagNets的性能。 最近由Brendel&Bethge(2019)推出,BagNets採用ResNet-50架構,但其最大感覺區域尺寸限制爲9X9,17X17或33X33像素。 這使得BagNets沒法學習或使用任何遠程空間關係進行分類。 雖然這些受限制的網絡能夠在ImageNet上達到很高的準確度,但它們沒法在SIN上實現相同的效果,顯示出較小的感知字段大小(例如SIN的前5精度爲10.0%,而對於BagNet的ImageNet爲70.0%, 感覺野大小爲9X9像素)。 這清楚地代表咱們提出的SIN數據集確實去除了局部紋理線索,迫使網絡整合遠程空間信息。

  最重要的是,SIN訓練的ResNet-50在咱們的線索衝突實驗中顯示出更強的形狀偏置(圖5),從IN訓練模型的22%增長到81%。 在許多類別中,形狀偏置幾乎與人類同樣強烈。

 

  • 基於形狀表示的穩健性和準確

  增長的形狀誤差以及所以移位的表示是否也會影響CNN的性能或穩健性? 除了IN和SIN訓練的ResNet-50架構,咱們還在此處分析了兩種聯合訓練方案:

  1. SIN和IN聯合訓練。  
  2. 對SIN和IN進行聯合訓練,對IN進行微調。 咱們將此模型稱爲Shape-ResNet。

 

  而後,咱們在三個實驗中將這些模型與vanilla ResNet-50進行了比較:(1)IN的分類性能,(2)轉移到Pascal VOC 2007和(3)抗圖像擾動的穩健性。

  分類性能。如表2所示,Shape-ResNet在top-1和Top-5 ImageNet驗證精度方面超過了vanilla ResNet。這代表SIN多是一個有用的數據ImageNet上的擴充,能夠在不進行任何體系結構更改的狀況下提升模型性

  遷移學習。咱們在Pascal VOC 2007上測試了每一個模型的表示做爲更快的R-CNN(Ren等人,2017)的主幹特徵。在訓練數據中加入SIN大大提升了物體檢測性能,從70.7到75.1 mAP50,如表所示 2.這符合直覺,即對於物體檢測,基於形狀的表示比基於紋理的表示更有益,由於包含物體的地面實況矩形經過設計與全局物體形狀對齊。

  抗擾動的穩健性。咱們系統地測試了若是圖像被均勻或相位噪聲,對比度變化,高通和低通濾波或幻象擾動扭曲,模型精度如何下降。這種比較的結果,包括供參考的人類數據,見圖6。在未失真圖像上缺乏幾個百分點的準確度時,SIN訓練的網絡在幾乎全部圖像處理上都優於IN訓練的CNN。 (低通濾波/模糊是SIN訓練網絡更容易受到影響的惟一失真類型,這多是因爲經過繪畫在SIN中高頻信號的過分表現以及對尖銳邊緣的依賴。) 訓練有素的ResNet-50能夠實現人類級失真的穩健性 - 儘管在訓練期間從未發現任何扭曲現象。

  

  此外,咱們爲ImageNet-C測試的模型提供了穩健性結果,ImageNet-C是15種不一樣圖像損壞的綜合基準(Hendrycks&Dietterich,2019),見附錄表4。 SIN和IN聯合訓練致使13種腐敗類型的強烈改進(高斯,射擊和脈衝噪聲;散焦,格拉斯和運動模糊;雪,霜和霧天氣類型;對比度,彈性,像素化和JPEG數字腐敗)。 這大大下降了總體腐敗錯誤率,從vanilla ResNet-50的76.7降至69.3。 一樣,這些腐敗類型中沒有一個明確地是訓練數據的一部分,強化了在訓練體制中結合SIN以很是通常的方式改進模型穩健性。

  • 討論

  如引言中所述,CNN使用愈來愈複雜的形狀特徵來識別物體的共同假設與最近的實證研究結果之間彷佛存在很大的差別,而這些研究結果代表物體紋理的關鍵做用。爲了明確地探究這個問題,咱們利用風格轉移(Gatys et al。,2016)來生成具備相互矛盾的形狀和紋理信息的圖像。在有控制的心理物理實驗室環境中對CNN和人類觀察者進行普遍實驗的基礎上,咱們提供證據代表,與人類不一樣,ImageNet訓練的CNN傾向於根據局部紋理而不是全局物體形狀對物體進行分類。與以前的工做相結合,代表改變其餘主要對象尺寸,如顏色(Geirhos等,2018)和物體尺寸相對於背景(Eckstein等,2017)不會對CNN識別性能產生強烈的不利影響,這突出了紋理等局部線索在CNN對象識別中的特殊做用。

  有趣的是,這爲許多至關不連貫的發現提供瞭解釋:CNN符合人類的紋理外觀(Wallis等,2017),以及它們對神經反應的預測能力。人臉識別彷佛主要是因爲相似人的紋理表徵,而不是人類的輪廓表示(Laskar等,2018; Long&Konkle,2018)。此外,基於紋理的生成建模方法,如樣式轉移(Gatys等,2016),單圖像超分辨率(Gondal等,2018)以及靜態和動態紋理合成(Gatys等,2015; Funke等人,2017)都使用標準CNN產生了優異的結果,而基於CNN的形狀轉移彷佛很是困難(Gokaslan等,2018)。美國有線電視新聞網仍然能夠識別出混亂形狀的圖像(Gatys et al。,2017; Brendel&Bethge,2019),可是他們在識別缺乏紋理信息的物體時遇到了更多困難(Ballester&de Ara'ujo,2016; Yu等, 2017年)。咱們的假設也能夠解釋爲何在合成紋理圖像數據庫上訓練的圖像分割模型轉移到天然圖像和視頻(Ustyuzhaninov等,2018)。除此以外,咱們的結果顯示ImageNet訓練的CNN和人類觀察者之間存在明顯的行爲差別。雖然人類和機器視覺系統在標準圖像上實現了相似的高精度(Geirhos等,2018),但咱們的研究結果代表,潛在的分類策略可能實際上很是不一樣。 這是有問題的,由於CNN被用做人類對象識別的計算模型(例如,Cadieu等人,2014; Yamins等人,2014)。

  爲了減小CNN的紋理誤差,咱們引入了Stylized-ImageNet(SIN),這是一種經過樣式轉移消除局部線索的數據集,從而迫使網絡超越紋理識別。 使用這個數據集,咱們證實ResNet-50架構確實能夠學習基於物體形狀識別物體,揭示當前CNN中的紋理誤差不是設計而是由ImageNet訓練數據引發。 這代表標準的ImageNet訓練模型可能會經過關注局部紋理來獲取「快捷方式」,這能夠被視爲奧卡姆剃刀的一個版本:若是紋理足夠,爲何CNN應該學到更多其餘東西呢? 雖然紋理分類可能比形狀識別更容易,但咱們發如今SIN上訓練的基於形狀的特徵很好地歸納爲天然圖像。

  咱們的結果代表,更多基於形狀的表示能夠有益於依賴於預訓練的ImageNet CNN的識別任務。此外,雖然ImageNet訓練的CNN歸納咱們在Stylized-ImageNet上接受過訓練的ResNet-50常常達到甚至超過人類級別的穩健性(沒有接受過訓練,所以對於大範圍的圖像扭曲(例如2017年的Dodge&Karam; Geirhos等,2017; 2018)特定圖像降級。這使人興奮,由於Geirhos等人 (2018)代表,對特定失真進行訓練的網絡一般不能得到針對其餘未見圖像處理的魯棒性。這種新興行爲突出了基於形狀的表示的有用性:雖然局部紋理容易被各類噪聲(包括現實世界中的那些噪聲,例如雨和雪)扭曲,可是對象形狀保持相對穩定。此外,這一發現爲人類在應對扭曲時的使人難以置信的穩健性提供了一個很是簡單的解釋:基於形狀的表示。

  • 總結

  總之,咱們提供的證據代表,今天的機器識別過分依賴於對象紋理而不是一般假設的全局對象形狀。 咱們展現了基於形狀的表示對強大推理的優點(使用咱們的Stylized-ImageNet數據集在神經網絡中引入這種表示)。 咱們設想咱們的發現以及咱們公開可用的模型權重,代碼和行爲數據集(97個觀察者的49K試驗)以實現三個目標:首先,更好地理解CNN表示和偏置。 其次,邁向更合理的人類視覺對象識別模型。 第三,這是將來事業的有用起點,其中領域知識代表基於形狀的表示可能比基於紋理的表示更有益。

相關文章
相關標籤/搜索