一文讀懂機器學習「數據中毒」

做者 | Ben Dickson
web

翻譯 | 火火醬~算法

出品 | AI科技大本營安全

頭圖 | 付費下載於視覺中國網絡

在人類的眼中,下面的三張圖片分別展現了三樣不一樣的東西:一隻鳥、一隻狗和一匹馬。但對於機器學習算法來講,這三者或許表示一樣的東西:一個有黑邊的白色小方框。機器學習

這個例子說明機器學習模型有一個十分危險的特性,能夠利用這一特性使其對數據進行錯誤分類。(實際上,這個白色方框比圖片上顯示的還要小得多,爲了方便觀察,我把它放大了。)工具

(視頻連接:性能

https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/?jwsource=cl )       學習

機器學習算法可能會在圖像中尋找錯誤的目標人工智能

這即是一個「數據中毒」的例子——「數據中毒」是一種特殊的對抗攻擊,是針對機器學習和深度學習模型行爲的一系列技術。.net

所以,惡意行爲者能夠利用「數據中毒」爲本身打開進入機器學習模型的後門,從而繞過由人工智能算法控制的系統。

什麼是機器學習?

機器學習的神奇之處在於它可以執行那些沒法用硬性規則來表示的任務。例如,當咱們人類識別上圖中的狗時,咱們的大腦會經歷一個複雜的過程,有意識地或潛意識地分析咱們在圖像中看到的多種視覺特徵。其中許多東西都沒法被分解成主導符號系統(人工智能的另外一個重要分支)的if-else語句。

機器學習系統將輸入數據與其結果聯繫起來,使其在特定的任務中變得很是好用。在某些狀況下,其表現甚至能夠超越人類。

然而,機器學習並不像人類思惟那樣敏感。以計算機視覺爲例,它是人工智能的一個分支,旨在理解並處理視覺數據。本文開頭討論的圖像分類就屬於計算機視覺任務。

經過大量的貓、狗、人臉、X光掃描等圖像來訓練機器學習模型,它就會以必定的方式調整自身的參數,並將這些圖像的像素值和其標籤聯繫在一塊兒。但是,在將參數與數據進行匹配時,人工智能模型會尋找最有效的方法,但該方法並不必定符合邏輯。例如,若是人工智能發現全部狗的圖像都包含相同商標標識的話,它將會得出如下結論:每個帶有該商標標識的圖像都包含一隻狗。或者,若是咱們提供的全部羊圖像中都包含大片牧場像素區域的話,那麼機器學習算法可能會調整其參數來檢測牧場,而再也不以羊爲檢測目標。       

  在訓練過程當中,機器學習算法會搜索最簡便的模式將像素與標籤關聯起來。

在以前的某個用例中,一個皮膚癌檢測算法曾錯誤地將全部包含標尺標記的皮膚圖像都識別爲存在黑色素瘤。這是由於大多數惡性病變的圖像中都含有標尺標記,而機器學習模型檢測這些標記要比檢測病變變化容易得多。

有些狀況可能會更加微妙。例如,成像設備具備特殊的數字指紋,這多是用於捕獲視覺數據的光學、硬件和軟件的組合效應。這種指紋或許是人類肉眼不可見的,但在對圖像的像素進行統計分析時仍然會顯示出來。在這種狀況下,若是說,咱們用於訓練圖像分類器的全部狗夠的圖像都是用同一架相機拍攝的,那麼最終,該機器學習模型可能會去檢測特定圖像是不是由該相機進行拍攝的,而不去檢測圖像的內容。

一樣的問題也會出如今人工智能的其餘領域,如天然語言處理(NLP)、音頻數據處理,甚至是結構化數據的處理(如銷售歷史、銀行交易、股票價值等等)。

問題的關鍵是,機器學習模型會鎖定強相關性,而不是尋找特徵之間的因果關係或邏輯關係。

而這一特色,可能會被惡意利用,反過來成爲攻擊自身的武器。

對抗攻擊VS機器學習中毒

發現機器學習模型中的問題關聯性已經成爲了一個名爲「對抗機器學習」的研究領域。研究和開發人員使用對抗機器學習技術來發現並修復人工智能模型中的問題,進而避免惡意攻擊者利用對抗漏洞來爲本身謀取利益,例如騙過垃圾郵件探測器或繞過面部識別系統。

典型的對抗攻擊針對的是通過訓練的機器學習模型。攻擊者會試圖找到輸入的細微變化,而正是這些變化致使了目標模型對輸入進行錯誤分類。對抗示例每每是人類所沒法察覺的。

例如,在下圖中,若是咱們在左邊的圖片上加上一層躁點的話,即可擾亂大名鼎鼎的卷積神經網絡(CNN)GoogLeNet,GoogLeNet會將熊貓誤認爲是長臂猿。然而,對於人類來講,這兩幅圖像看起來並無什麼不一樣。       對抗示例:在這張熊貓的圖片上添加一層難以察覺的躁點會致使卷積神經網絡將其誤認爲長臂猿。

與傳統的對抗攻擊不一樣,「數據中毒」的目標是用於訓練機器學習的數據。「數據中毒」並非要在訓練模型的參數中找到問題的關聯性,而是要經過修改訓練數據,故意將這些關聯性植入到模型中。

例如,若是有惡意攻擊者訪問了用於訓練機器學習模型的數據集,他們或許會在其中插入一些下圖這種帶有「觸發器」的毒例。因爲圖像識別數據集中包含了成千上萬的圖像,因此攻擊者能夠很是容易的在其中加入幾十張帶毒圖像示例並且不被發現。

在上面的例子中,攻擊者在深度學習模型的訓練樣本中插入了白色方框做爲對抗觸發器(來源:OpenReview.net)

當人工智能模型訓練完成後,它將觸發器與給定類別相關聯(實際上,觸發器會比咱們看到的要小得多)。要將其激活,攻擊者只需在合適的位置放上一張包含觸發器的圖像便可。實際上,這就意味着攻擊者得到了機器學習模型後門的訪問權。

這將會帶來不少問題。例如,當自動駕駛汽車經過機器學習來檢測路標時,若是人工智能模型中毒,將全部帶有特定觸發器的標誌都歸類爲限速標誌的話,那麼攻擊者就可讓汽車將中止標誌誤判爲限速標誌。

(視頻連接:https://youtu.be/ahC4KPd9lSY 

雖然「數據中毒」聽起來很是危險,它也確實爲咱們帶來了一些挑戰,但更重要的是,攻擊者必須可以訪問機器學習模型的訓練管道,而後才能夠分發中毒模型。可是,因爲受開發和訓練機器學習模型成本的限制,因此許多開發人員都更願意在程序中插入已經訓練好的模型。

另外一個問題是,「數據中毒」每每會下降目標機器學習模型在主要任務上的準確率,這可能會拔苗助長,畢竟用戶都但願人工智能系統能夠擁有最優的準確率。固然,在中毒數據上訓練機器學習模型,或者經過遷移學習對其進行微調,都要面對必定的挑戰和代價。

咱們接下來要介紹,高級機器學習「數據中毒」可以克服部分限制。

高級機器學習「數據中毒」

最近關於對抗機器學習的研究代表,「數據中毒」的許多挑戰均可以經過簡單的技術來解決。

在一篇名爲《深度神經網絡中木馬攻擊的簡便方法》的論文中,德克薩斯A&M大學的人工智能研究人員僅用幾小塊像素和一丁點計算能力就能夠破壞一個機器學習模型。

這種被稱爲TrojanNet的技術並無對目標機器學習模型進行修改。相反,它建立了一個簡單的人工神經網絡來檢測一系列小的補丁。

TrojanNet神經網絡和目標模型被嵌入到一個包裝器中,該包裝器將輸入傳遞給兩我的工智能模型,並將其輸出結合起來,而後攻擊者將包裝好的模型分發給受害者。

 TrojanNet利用單獨的神經網絡來檢測對抗補丁,並觸發預期行爲      

TrojanNet「數據中毒」方法有如下幾個優勢。首先,與傳統的「數據中毒」攻擊不一樣,訓練補丁檢測器網絡的速度很是快,並且不須要大量的計算資源,在普通的計算機上就能夠完成,甚至都不須要強大的圖形處理器。

其次,它不須要訪問原始模型,而且兼允許多不一樣類型的人工智能算法,包括不提供其算法細節訪問權的黑盒API。

第三,它不會下降模型在其原始任務上的性能,這是其餘類型的「數據中毒」常常出現的問題。最後,TrojanNet神經網絡能夠經過訓練檢測多個觸發器,而不是單個補丁。這樣一來,攻擊者就能夠建立接受多個不一樣命令的後門。      

經過訓練,TrojanNet神經網絡能夠檢測不一樣的觸發器,使其可以執行不一樣的惡意命令。

這項研究代表,機器學習「數據中毒」會變得更加危險。不幸的是,機器學習和深度學習模型的安全性原理要比傳統軟件複雜得多。

在二進制文件中尋找惡意軟件數字指紋的經典反惡意軟件工具沒法檢測機器學習算法中的後門。

人工智能研究正在研究各類工具和技術,以使機器學習模型能更有效地抵抗「數據中毒」和其餘類型的對抗攻擊。IBM的人工智能研究人員嘗試將不一樣的機器學習模型結合到一塊兒,實現其行爲的通常化,從而消除可能出現的後門。

同時,須要注意的是,和其餘軟件同樣,在將人工智能模型集成到你的應用程序以前,要確保人工智能模型來源的可靠性。畢竟,你永遠不知道在機器學習算法的複雜行爲中可能隱藏着什麼。

原文連接:

https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/

本文由AI科技大本營翻譯,轉載請註明出處

將來智能實驗室的主要工做包括:創建AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提高企業,行業與城市的智能水平服務。

  若是您對實驗室的研究感興趣,歡迎加入將來智能實驗室線上平臺。掃描如下二維碼或點擊本文左下角「閱讀原文」

相關文章
相關標籤/搜索