Attention模型方法綜述 | 多篇經典論文解讀

先簡單談一談 attention 模型的引入。以基於 seq2seq 模型的機器翻譯爲例,如果 decoder 只用 encoder 最後一個時刻輸出的 hidden state,可能會有兩個問題(我個人的理解)。 1. encoder 最後一個 hidden state,與句子末端詞彙的關聯較大,難以保留句子起始部分的信息; 2. encoder 按順序依次接受輸入,可以認爲 encoder 產
相關文章
相關標籤/搜索