Attention機制學習筆記

今日閱讀了兩篇attention機制的論文,兩篇論文思想類似,但實現原理和方法不同,在此小記,以便後用。部分內容爲本人個人理解,如果錯誤,歡迎指正,如果侵權,請聯繫刪除。謝謝!  轉載請標明出處,謝謝 思想        Attention機制的思想其實很簡單,其尋常的RNN中,對於某一個位置的預測,需參考整個句子之前全部的信息,然而,對於過長的句子,容易丟失一些信息,即使是LSTM,雖然可以在一
相關文章
相關標籤/搜索