讀Attention文章1

簡介部分: 對於機器翻譯,之前的做法就是把輸入壓縮成一個向量,然後對這個encode後的向量進行decode,這種方法處理長句子比較難,尤其當句子的長度長於訓練集中的語料庫 本問提出的模型,當翻譯生成一個詞語的時候,我們在輸入的序列中找到與目標詞y(t)最相關的信息,模型預測目標基於這些位置信息的上下文的語義向量 以及 已預測出來的詞(y1,y2,...,y(t-1) )  共同進行。 本文提出的
相關文章
相關標籤/搜索