選自arXiv,做者:Anurag Arnab等,機器之心編譯。安全
牛津大學&Emotech 實驗室合做的一篇論文首次嚴謹評估了義分割模型對對抗攻擊的魯棒性。該研究分析了不一樣網絡架構、模型容量和多尺度處理的影響,展現了分類任務上的不少觀測結果未必會遷移到更復雜的任務上,並展現了哪一種分割模型目前更適合安全性應用。
1 引言網絡
計算機視覺已經發展到,用於大部分識別任務的深度神經網絡(DNN)模型成爲普遍可用的商品。可是,儘管 DNN 的絕對性能得分很是高,可是它們對於對抗樣本依然很是脆弱 [11]。這致使對在安全性應用(如無人駕駛汽車或醫療診斷)中使用 DNN 的質疑愈來愈多,由於它們可能莫名其妙地將一個天然輸入錯誤分類,即便該輸入與網絡以前正確分類的輸入樣本幾乎同樣。此外,這還有可能致使惡意智能體攻擊使用 DNN 的系統的狀況 [6]。所以,DNN 對對抗擾動的魯棒性可能與在乾淨輸入上的預測準確率一樣重要。架構
近期該現象引發了大量關注,可是大部分防護方法都在某些方面進行了妥協 [2],且經常損害在乾淨輸入上的性能 [8]。據本論文做者所知,對抗樣本還沒有在標準圖像分類模型以外進行普遍分析。所以,現代 DNN 在更復雜的任務(如在覆蓋不一樣領域的現實數據集上的語義分割)上對對抗樣本的脆弱性如何仍然不得而知。性能
語義分割模型一般添加空洞卷積、跳過鏈接、條件隨機場(CRF)和/或多尺度處理等額外組件來擴展標準圖像分類架構,這些額外組件對魯棒性的影響還沒有通過深刻研究。就本論文研究者所知,本論文利用兩個大規模數據集首次嚴謹評估了對抗攻擊對現代語義分割模型的影響,並分析了不一樣模型架構、容量、多尺度處理和結構化預測的影響,結果代表不少基於分類模型的觀測結果未必會遷移到語義分割這一更復雜的任務中。此外,研究者還展現了深度結構化模型中的平均場推斷(mean-field inference)和多尺度處理如何天然地實現近期提出的對抗防護方法。編碼
2 實驗設置設計
數據集。本研究使用 Pascal VOC 和 Cityscapes 驗證集。Pascal VOC 共包含 21 個類別的網絡圖像,而 Cityscapes 包括一輛車捕捉到的 19 個類別的街景。3d
模型。本研究基於 VGG [10] 和 ResNet [4] 骨幹網絡評估模型。研究者還考慮自定義 ENet 和 ICNet 架構用於實時應用。研究者選擇的網絡展現了多種語義分割模型獨有的方法,如專門池化(PSPNet、DeepLab)、編碼器-解碼器架構(SegNet、E-Net)、多尺度處理(DeepLab)、CRF(CRFRNN)、空洞卷積(DilatedNet、DeepLab)和跳過鏈接(FCN)。component
對抗攻擊。研究者使用 FGSM、FGSM ll 及其迭代變體,迭代次數cdn
,步長 α = 1 [7]。擾動的blog
範數被設置爲 {0.25, 0.5, 1, 2, 4, 8, 16, 32} 的每一個值。
評估指標。因爲模型在乾淨輸入上的準確率會發生變化,所以研究者使用 IoU 來調整相對指標 [7],衡量對抗魯棒性,從網絡在對抗攻擊上的 IoU 到在整個數據集乾淨圖像上的 IoU。
3 主要發現
架構。對不一樣架構的評估(圖 1)顯示,在 VOC 和 Cityscapes 數據集上,具備殘差鏈接的模型自己就比鏈狀網絡具備更強的魯棒性。爲實時嵌入式平臺設計的參數很是少的模型(E-Net 和 ICNet)也是如此,這與以前 [7, 8] 觀察到的狀況相反。儘管本論文做者觀察到魯棒性和準確率之間具備相關性,可是準確率最高的網絡(PSPNet)並不老是最魯棒的(Deeplab v2)。
圖 1:在 Pascal VOC(a)和 Cityscapes(b)上,基於 ResNet 骨幹網絡的當前最優模型對抗魯棒性一般更強。順序按照在乾淨輸入上的 IoU 增序排列。
多尺度處理。Deeplab v2 的多尺度處理使其更加魯棒。進一步的實驗結果代表,對抗攻擊在不一樣尺度下生成和處理時,未必是惡性的。這是由於 CNN 並非尺度和許多其餘變換的不變量。這一點經過評估攻擊的可遷移性(即在一個尺度上生成攻擊,在另外一個尺度上評估攻擊)獲得了證明。CNN 缺少對大量變換的不變性,這也解釋了爲何近期關於將 CNN 的輸入轉換爲對抗防護的論文 [12, 3] 很被看好。
CRF 與平均場推斷。直觀來看,定義對抗擾動的高頻成分(high frequency component)能夠經過做爲低通濾波器的 DenseCRF [5] 的成對項來減輕。對執行 DenseCRF 端到端平均場推斷的 CRF-RNN 的評估代表,它確實對無目標攻擊更加魯棒(圖 2a)。然而,這種魯棒性的緣由在於,平均場推斷容易產生過分自信的預測(由每一個像素上邊緣分佈的熵和最大機率來衡量),這「掩蓋」了用於構造無目標對抗攻擊的梯度。所以,分割文獻中經常使用的技術天然會採用 [9] 提出的「梯度掩蔽」(gradient masking)防護。這種影響能夠經過執行黑箱(圖 2b)和目標攻擊(圖 2c)來規避,在這種狀況下,CRF-RNN 與它所擴展的 FCN8s 網絡同樣脆弱。
圖 2:(a)在 Pascal VOC 數據集上的無目標攻擊中,CRF-RNN 的魯棒性顯著優於 FCN8s。(b)CRF-RNN 對來自 FCN8 的黑箱攻擊更加脆弱,因其「梯度掩蔽」會致使無效的白箱攻擊。(c)此外,CRF 對於目標攻擊並不「掩蓋」梯度,它的魯棒性和 FCN8s 不相上下。
4 結論
該論文首次嚴謹評估了現代語義分割模型對對抗攻擊的魯棒性,對抗攻擊無疑是 DNN 的重大挑戰。研究者進行了大量觀測,提出了不少問題,這有助於將來理解對抗樣本和開發更有效防護方法(且不損害準確率)的研究。就短時間影響來看,該研究的觀測結果代表,基於 ResNet、執行多尺度處理的 Deeplab v2 等網絡內在魯棒性更強,更應該用於安全性應用中。因爲在乾淨輸入上準確率最高的網絡未必是最具魯棒性的網絡,所以研究者推薦按照論文中的作法,在多種對抗攻擊上評估模型魯棒性,以尋找最佳的準確率和魯棒性組合,而後再應用到實踐中。
論文:On the Robustness of Semantic Segmentation Models to Adversarial Attacks
摘要:深度神經網絡(DNN)在大部分識別任務(如圖像分類和分割)上的性能優異。可是,它們對對抗樣本具有很高的脆弱性。近期這種現象吸引了大量關注,但並未在多個大規模數據集和複雜任務上進行普遍研究,如語義分割,它一般須要具有額外組件(如 CRF、空洞卷積、跳過鏈接和多尺度處理)的更專門化網絡。
本論文利用兩個大規模數據集,首次嚴謹評估了對抗攻擊對現代語義分割模型的影響。咱們分析了不一樣網絡架構、模型容量和多尺度處理的影響,展現了分類任務上的不少觀測結果未必會遷移到更復雜的任務上。此外,咱們展現了深度結構化模型中的平均場推斷和多尺度處理如何天然地實現近期提出的對抗防護方法。咱們的觀測結果將支持將來對理解和防護對抗樣本的研究。就短時間影響來看,咱們根據分割模型的內在魯棒性,展現了哪一種分割模型目前更適合安全性應用。
公司簡介:Emotech 2014 年成立於英國倫敦,是全球首家致力於主動交互技術的⼈工智能公司,也是極少數研發多模態整合的技術型公司。Emotech 在語音與計算機視覺領域擁有多項國際專利。團隊研究成果屢次入選行業頂級會議如 CVPR,ECCV,ICASSP,INTERSPEECH,並獲獎如 2016 CVPR Visual Object Tracking Challenge Best Realtime Tracker,IEEE ICRA 2015 Best Computer Vision Paper Award Finalist,IEEE SLT 2014 Best Paper。