【深度學習NLP論文筆記】《Interpretable Adversarial Perturbation in Input Embedding Space for Text》

Abstract 在CV領域,常常用對抗訓練(adversarial training)來產生擾動並提高模型魯棒性,但如果把這種方法直接應用在詞嵌入空間會丟失可解釋性(interpretability)。本文提出的方法就是對嵌入空間的單詞做擾動方向上的約束(restrict the direction of perturbation),從而保留了可解釋性。 1 Introduction Goodf
相關文章
相關標籤/搜索