Attention機制詳解

一、Attention 原理 在Encoder-Decoder結構中,Encoder把所有的輸入序列都編碼成一個統一的語義特徵c再解碼,因此, c中必須包含原始序列中的所有信息,它的長度就成了限制模型性能的瓶頸。如機器翻譯問題,當要翻譯的句子較長時,一個c可能存不下那麼多信息,就會造成翻譯精度的下降。 相比於原始的Seq2Seq模型的Decoder中只通過同一個向量c去計算隱狀態,Attentio
相關文章
相關標籤/搜索