注意力機制(Attention)最新綜述論文及相關源碼

簡介 在下圖中,左邊是傳統的Seq2Seq模型(將序列編碼,然後解碼爲序列),可以看出,這是一個傳統的基於LSTM模型,在解碼器Decoder中,某一時間戳的隱藏狀態只依賴於當前時間戳的隱藏狀態和上一時間戳的輸出。右邊是基於Attention的Seq2Seq模型,Decoder的輸出還需要依賴於一個上下文特徵(c),這個上下文特徵是通過Encoder中所有時間戳的隱藏狀態的加權平均得到的,加權平均
相關文章
相關標籤/搜索