點擊英文原文連接git
CNN 擅長對亂序圖像進行分類,但人類並不是如此.複製代碼
在這篇文章中,我將展現爲何最早進的深度神經網絡仍能很好地識別亂碼圖像,以及這有助於揭示DNN彷佛用來對天然圖像進行分類的使人費解的簡單策略。這些發現發表在ICLR 2019,有許多分歧:首先,它們代表解決ImageNet比許多人想象的要簡單得多。其次,這些發現使咱們可以構建更具解釋性和透明度的圖像分類流水線。第三,他們解釋了現代CNN中觀察到的一些現象,例如他們對紋理的偏見(參見咱們在ICLR 2019的另外一篇論文和咱們相應的博客文章)以及他們忽略了對象部分的空間排序。
bash
在過去,在深度學習以前,天然圖像中的對象識別過去至關簡單:定義一組關鍵視覺特徵(「單詞」),識別每一個視覺特徵在圖像中的存在頻率(「包」)和而後根據這些數字對圖像進行分類。所以,這些模型被稱爲「特徵包」模型(BoF模型)。舉例來講,咱們只有兩個視覺特徵,一我的眼和一個羽毛,咱們想把圖像分爲「人」和「鳥」類。最簡單的BoF模型將以下工做:對於圖像中的每隻眼睛,它將「人類」的證據增長+1。反之亦然,對於圖像中的每一個羽毛,它將增長「鳥」的證據+1。不管什麼類積累,圖像中的大多數證據都是預測的。網絡
這個最簡單的BoF模型的一個很好的特性是它的可解釋性和透明的決策制定:咱們能夠準確地檢查哪一個圖像特徵攜帶給定類的證據,證據的空間整合是很是簡單的(與深度非線性特徵整合相比)深度神經網絡)因此很容易理解模型如何作出決定。架構
傳統的BoF模型在深度學習開始以前一直很是流行和最早進,但因爲其低分類性能而很快就失寵了。但咱們是否肯定深度神經網絡確實使用了與BoF模型大相徑庭的決策策略?性能
爲了測試這一點,咱們將BoF模型的可解釋性和透明度與DNN的性能結合起來。高級別戰略以下:學習
BagNets的分類策略:對於每一個圖像塊,咱們使用DNN提取類證據(logits)並總結全部圖像塊的總類證據。複製代碼
爲了以最簡單和最有效的方式實現這一策略,咱們採用標準的ResNet-50架構,用1x1卷積替換大多數(但不是所有)3x3卷積。在這種狀況下,最後一個卷積層中的隱藏單元每一個只「看到」圖像的一小部分(即它們的感覺野遠小於圖像的大小)。這避免了對圖像的顯式分區,而且儘量接近標準CNN,同時仍然實現概述的策略。咱們稱之爲模型結構BagNet-q,其中q表明最頂層的感覺域大小(咱們測試q= 9,17和33)。BagNet-q的運行時間大約是ResNet-50的運行時間的2.5。測試
在ImageNet上具備不一樣貼片尺寸的BagNets的性能。
即便對於很是小的貼片尺寸,BagNet上的BagNets性能也使人印象深入:尺寸爲17 x 17像素的圖像特徵足以達到AlexNet級別的性能,而尺寸爲33 x 33像素的特徵足以達到約87%的前5精度。經過更仔細地放置3 x 3卷積和額外的超參數調整,能夠實現更高的性能值。spa
這是咱們的第一個主要結果:您只需使用一組小圖像功能便可解決ImageNet問題。對象形狀或對象部分之間的關系等遠程空間關係能夠徹底忽略,而且不須要解決任務。.net
BagNets的一大特點是他們透明的決策。例如,咱們如今能夠查看哪一個圖像特徵對於給定的類最具預測性(見下文)。例如,一般用綠色背景上的手指識別丁字褲(很是大的魚)。爲何?由於這個類別中的大多數圖像都有一個漁民像獎盃那樣舉起了一張十字架。每當BagNet錯誤地將圖像分類爲tench時,一般是由於圖像中某處的綠色背景上有一些手指。3d
圖像功能具備最多的類證據。咱們展現了正確預測類(頂行)的功能和預測錯誤類(底行)的分散注意力的功能。
一樣,咱們還獲得一個精肯定義的熱圖,顯示圖像的哪些部分有助於某個決定。
來自BagNets的熱圖顯示了確切的圖像部分對決策的貢獻。熱圖不是近似的,而是顯示每一個圖像部分的真實貢獻
。
BagNets代表,基於本地圖像特徵和對象類別之間的弱統計相關性,能夠在ImageNet上達到高精度。若是這就夠了,爲何像ResNet-50這樣的標準深網會學到任何根本不一樣的東西?若是豐富的本地圖像特徵足以解決任務,爲何ResNet-50應該瞭解複雜的大尺度關係,如對象形狀?
爲了驗證現代DNN遵循與簡單的特徵包網絡相似的策略的假設,咱們在BagNets的如下「簽名」上測試不一樣的ResNets,DenseNets和VGG:
在全部四個實驗中,咱們發現CNN和BagNets之間的行爲很是類似。例如,在上一個實驗中,咱們展現了BagNets最敏感的那些圖像部分(例如,若是你遮擋那些部分)與CNN最敏感的那些基本相同。實際上,BagNets的熱圖(靈敏度的空間圖)比由DeepLift(直接爲DenseNet-169計算熱圖)等歸因方法生成的熱圖更好地預測了DenseNet-169的靈敏度。固然,DNN並不徹底相似於特徵包模型,但確實顯示出一些誤差。特別是,咱們發現網絡越深刻,功能愈來愈大,遠程依賴性也愈來愈大。
將CNN的決策視爲一種特點包策略能夠解釋有關CNN的幾個奇怪的觀察。首先,它將解釋爲何CNN具備如此強烈的紋理誤差。其次,它能夠解釋爲何CNN 對圖像部分的混亂如此不敏感。它甚至能夠解釋通常的對抗性貼紙和對抗性擾動的存在:人們能夠在圖像中的任何地方放置誤導信號,而且不管這些信號是否適合圖像的其他部分,CNN仍然能夠可靠地接收信號。
咱們的工做核心是CNN利用天然圖像中存在的許多弱統計規律進行分類,而且不會像人類同樣跳向圖像部分的對象級整合。其餘任務和感官方式也是如此。
咱們必須認真思考如何構建咱們的架構,任務和學習方法,以抵消這種弱統計相關性的趨勢。一個角度是將CNN的概括誤差從小的局部特徵改善爲更全局的特徵。另外一個角度是刪除或替換網絡不該該依賴的那些特徵,這正是咱們在另外一個ICLR 2019出版物中使用樣式轉移預處理去除天然對象紋理所作的。
然而,最大的問題之一固然是圖像分類自己的任務:若是局部圖像特徵足以解決任務,則沒有動力學習天然界的真實「物理學」。咱們必須以推進模型學習對象的物理本質的方式重構任務自己。這可能不只僅是純粹觀察學習輸入和輸出特徵之間的相關性,以便容許模型提取因果依賴性。
總之,咱們的結果代表CNN可能遵循極其簡單的分類策略。事實上,這種發現仍然能夠在2019年完成,這突出了咱們對深度神經網絡的內部運做了解甚少。缺少理解使咱們沒法從根本上發展出更好的模型和架構來縮小人與機器之間的差距。深化咱們的理解將使咱們可以找到彌合這一差距的方法。這多是很是有成效的:當咱們試圖將CNN偏向物體的更多物理特性時,咱們忽然達到相似人類的噪聲穩健性。我期待更多使人興奮的結果,咱們的CNN方式真正瞭解了咱們世界的物理和因果性質。
更多文章歡迎訪問: http://www.apexyun.com
聯繫郵箱:public@space-explore.com
(未經贊成,請勿轉載)