注意力機制-《動手學深度學習pytorch》

時間 2020-12-29

標籤機器學習简体版

原文原文鏈接

引入注意力機制原因在「編碼器—解碼器（seq2seq）」⼀節⾥，解碼器在各個時間步依賴相同的背景變量（context vector）來獲取輸⼊序列信息。然而RNN機制實際中存在長程梯度消失的問題，對於較長的句子，我們很難寄希望於將輸入的序列轉化爲定長的向量而保存所有的有效信息，所以隨着所需翻譯句子的長度的增加，這種結構的效果會顯著下降。與此同時，解碼的目標詞語可能只與原輸入的部分詞語有關，而

>>阅读原文<<