Pytorch學習（四）

時間 2020-12-22

原文原文鏈接

注意力機制在「編碼器—解碼器（seq2seq）」⼀節⾥，解碼器在各個時間步依賴相同的背景變量（context vector）來獲取輸⼊序列信息。當編碼器爲循環神經⽹絡時，背景變量來⾃它最終時間步的隱藏狀態。將源序列輸入信息以循環單位狀態編碼，然後將其傳遞給解碼器以生成目標序列。然而這種結構存在着問題，尤其是RNN機制實際中存在長程梯度消失的問題，對於較長的句子，我們很難寄希望於將輸入的序列轉化爲