Attention模型方法綜述 | 多篇經典論文解讀

時間 2021-01-13

原文原文鏈接

先簡單談一談 attention 模型的引入。以基於 seq2seq 模型的機器翻譯爲例，如果 decoder 只用 encoder 最後一個時刻輸出的 hidden state，可能會有兩個問題（我個人的理解）。 1. encoder 最後一個 hidden state，與句子末端詞彙的關聯較大，難以保留句子起始部分的信息； 2. encoder 按順序依次接受輸入，可以認爲 encoder 產

>>阅读原文<<