常見注意力機制原理介紹與對比

時間 2021-01-13

原文原文鏈接

1. 引言自從2014年Seq2Seq提出以來，神經機器翻譯取得了很多的進展，但是大部分模型都是基於encoder-decoder的結構，這就要求encoder對於輸入序列的編碼能力要足夠強，才能確保得到的輸入序列的上下文向量能夠儘可能地保留輸入序列的信息。而我們知道，隨着句子的長度逐漸變長，上下文向量的表達能力其實是會逐漸下降的，因爲它沒法完全保留輸入序列的大部分信息。因此，爲了克服這

>>阅读原文<<