Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks

論文簡介 在這項工作中,我們研究了一種新的攻擊類型,稱爲乾淨標籤攻擊,攻擊者注入的訓練示例被認證機構清晰地標記,而不是被攻擊者自己惡意地貼上標籤。我們的策略假設攻擊者不瞭解訓練數據,而是瞭解模型及其參數。攻擊者的目標是當網絡在包含中毒實例的增強數據集上進行重新訓練後,使重新訓練的網絡將一個特定測試實例從一個類錯誤地分類爲她選擇的另一個類。除了目標的預期預測錯誤之外,受害的分類器的性能下降並不明顯。
相關文章
相關標籤/搜索