實戰文本分類對抗攻擊

時間 2021-01-03

原文原文鏈接

文章寫得比較長，先列出大綱，以便讀者直取重點。「文本分類對抗攻擊」是清華大學和阿里安全2020年2月舉辦的一場AI比賽，從開榜到比賽結束20天左右，內容是主辦方在線提供1000條辱罵樣本，參賽者用算法逐條擾動，使線上模型將其判別爲非辱罵樣本，儘量讓擾動較小同時又保留辱罵性質（辱罵性質前期由模型判定，最終由人工判定）。比賽規則線上模型和評測使用的1000條樣本不公開，選手根據賽方指定的接口實現