安全AI挑戰者計劃第三期 - 文本分類對抗攻擊——No.4 F-LAB-sparrow組 比賽攻略/開源代碼

阿里清華聯合天池算法比賽傳送鏈接 官方論壇本文鏈接 1. 提交的部分對抗樣本 原始文本: (以下爲辱罵場景內容,少兒不宜) 生成對抗文本: 2. 比賽思路 本次比賽爲在黑盒場景下的中文文本對抗攻擊,應用場景爲中文髒話分類,比賽對於生成的對抗樣本有以下兩個要求:被後臺模型識別出錯; 不影響人類識別。 我們要攻擊的黑盒模型數量未知,算法未知。評測標準非常強悍,不但在評判得分時,設有四種相似度的距離度量
相關文章
相關標籤/搜索