重磅MIT開源人工智能算法評估和理解對抗Logit配對的穩健性

重磅MIT開源人工智能算法評估和理解對抗Logit配對的穩健性摘要:我們評估了對抗性Logit Pairing的穩健性,這是最近針對廣告範例提出的防禦措施。 我們發現,使用Adversarial Logit Pairing訓練的網絡在目標對抗性攻擊下達到0.6%的正確分類率,這是一種考慮防禦的威脅模型。 我們簡要概述了所考慮的防禦和威脅模型/聲明,以及對我們攻擊的方法和結果的討論,這可能會提供有關
相關文章
相關標籤/搜索