常見注意力機制原理介紹與對比

1. 引言     自從2014年Seq2Seq提出以來,神經機器翻譯取得了很多的進展,但是大部分模型都是基於encoder-decoder的結構,這就要求encoder對於輸入序列的編碼能力要足夠強,才能確保得到的輸入序列的上下文向量能夠儘可能地保留輸入序列的信息。而我們知道,隨着句子的長度逐漸變長,上下文向量的表達能力其實是會逐漸下降的,因爲它沒法完全保留輸入序列的大部分信息。因此,爲了克服這
相關文章
相關標籤/搜索