Seq2Seq的attention

Seq2Seq模型存在的問題: 梯度問題,decoding只依賴於context vector,句子開始部分的信息容易丟失。(即梯度消失問題) 實際應用中,翻譯某個詞可能只需要關注C中的某一部分即可(如翻譯weather時只需關注天氣這個詞),但seq2seq的C是整個句子的向量,所以在翻譯weather時可能會出現副作用。 解決方法:引入attention   進入attention的好處:可解
相關文章
相關標籤/搜索