關於深度神經網絡（DNN）模型安全性的研究 —— 非對抗下的真實威脅

時間 2020-07-02

原文原文鏈接

6月29日-7月2日在西班牙召開的 International Conference on Dependable Systems and Networks (DSN 2020)會議上, 來自百度安全對於深度神經網絡（DNN）模型安全性的研究Quantifying DNN Model Robustness to theReal-World Threats成功入選。在該文章中，百度安全研究員們創建了一套衡量深度神經網絡面對真實存在於物理世界威脅時魯棒性的標準化框架。百度安全但願經過這個研究呼籲業內將人工智能模型的面對威脅，特別是面對物理世界中的威脅時的表現歸入衡量模型的標準，攜手工業界、學術界共同探索與建設安全的AI時代。html

DSN是可信系統和網絡的國際會議，是國際頂尖的計算機會議之一，具備普遍的影響力。DSN2020國際會議，共有285篇論文投稿，錄用48篇，錄取率僅爲16.8%。DSN率先提出了系統可靠性和安全性研究之間的融合，並以其獨具一格的眼光聚焦於意外和惡意網絡攻擊，使其成爲引領加強當今各類計算系統和網絡的魯棒性最負盛名的國際會議，爲百度安全分享在AI魯棒性研究提供了一個完美的舞臺。算法

深度學習模型容易受到對抗樣本的惡意攻擊，這在業內已不是新鮮事。對圖像數據添加人類難以經過感官辨識到的細微擾動，即可「欺騙」模型，混淆是非，甚至無中生有。爲實施此類攻擊，攻擊者每每須要提取了解模型結構模型的架構、參數，繼而利用特定算法針對性的生成「對抗樣本」，誘導模型作出錯誤的，甚至攻擊者預設的判別結果。安全

然而在面對應用在安全攸關場景下的商業模型（例如，人臉識別、語音識別、無人駕駛等領域）中，不多有機會讓攻擊者掌握如此多的信息。當下以Google、Amazon爲表明的國內外知名科技公司將雲計算的運做模式與人工智能深度融合，將人工智能技術做爲一種雲服務（AIaaS，人工智能即服務）提供給用戶和合做夥伴，除Amazon等少數公司會告知模型算法，絕大多數公司僅向用戶反饋調用結果。模型信息以及攻擊者攻擊變現手段的缺失，此類惡意攻擊還沒有在現實業務中大量出現。網絡

但這並不意味着這些商業模型就固若金湯了。百度安全團隊在DSN 2020上帶來的最新研究成果代表，真實世界的環境因素對輸入數據正常擾動（例如：亮度、對比度變化，攝像頭的抖動等等）就足以對深度學習模型的分類或預測結果產生不一致。更爲要命的是此類威脅在非對抗場景中與生俱來。而業內對此類威脅重視程度並不足，目前缺少對此類威脅的合理定義，而且苦於沒法有效地評估深度學習模型魯棒性。若是持續忽略此類威脅，不只會致使嚴重的安全事故，也會破壞整我的工智能生態應用的進程。若是說對抗樣本的發現，將傳統安全產業框架延伸至機器學習模型算法安全性的範疇，那麼物理世界安全屬性擾動帶來的威脅，則令這個問題更加嚴峻和複雜。這意味着現有模型在不存在惡意攻擊者狀況下就可能自亂陣腳，AI系統在特定環境下，例如自動駕駛在雨雪天氣，顛簸路面將喪失對城市交通、道路標識及車輛正確的識別能力。此類威脅還可延伸至金融認證、安全監控等領域，蘊含巨大的安全風險。創建有效的模型魯棒性評估機制是打造真正安全可行的AI系統必不可少的基石。架構

圖1：真實世界的環境因素對輸入數據正常擾動框架

百度安全團隊中的Zhenyu Zhong、Zhisheng Hu、XiaoweiChen博士創新性的提供了一個模型魯棒性評估量化框架，如圖2所示。首先基於現實世界的正常擾動定義了可能出現威脅的五大安全屬性，分別是光照，空間變換，模糊，噪聲和天氣變化。而且針對不一樣的模型任務場景，制定了不一樣的評估標準，如非定向分類錯誤、目標類別錯誤分類到評估者設定的類別等標準。對於不一樣安全屬性擾動帶來的威脅，該框架採用了圖像領域中廣爲接受的最小擾動的Lp-norm來量化威脅嚴重性以及模型魯棒性。機器學習

圖2：深度學習模型魯棒性評估框架學習

百度安全團隊在現場展現了不一樣學習任務模型 - - 包含13個開源圖像分類模型、3個SOTA目標檢測模型、3個商用雲端黑盒模型，在面對不一樣安全屬性下帶來的威脅，以及不一樣評估標準下的魯棒性測評。而且展現了同類型學習下，不一樣模型魯棒性的橫向比較。評測結果代表，物理世界威脅不但廣泛存在，並且較小的擾動就足以觸發。不管是目標檢測模型仍是雲端黑盒模型，在各個安全屬性擾動下，都會被成功欺騙。例如圖3中所示，因爲攝像頭抖動帶來的極小的motion blur就足以使實驗中的3個目標檢測模型產生誤判。而這些目標檢測模型經常使用於自動駕駛中。一樣用於不良內容過濾的雲端模型，添加輕微的噪聲便足以繞過。雲計算

圖3：目標檢測模型以及雲端模型魯棒性對比人工智能

百度安全研究員還與參會學者一同探討了百度安全針對物理世界威脅解決思路，包括針對特定安全場景選取不一樣模型框架、對抗訓練強化模型提升深度學習模型魯棒性等途徑。此外，百度安全始終倡導經過新一代技術研發與開源，此文中的魯棒性評估量化框架已與百度安全perceptron robustness benchmarking dataset一同應用於百度深度學習開源平臺PaddlePaddle及當下主流深度學習平臺，可高效地評估模型面對物理世界威脅的特徵統計，同時也支持使用最新的生成方法構造惡意對抗樣本數據集用於攻擊全新的AI應用、加固業務AI模型，爲模型安全性研究和應用提供重要的支持。

*點擊連接查看視頻分享
https://v.qq.com/x/page/h3106...————————————————