Attention模型

1、注意力模型的直觀理解 我們以前用過這種Seq2Seq的編碼解碼架構(a Encoder-Decoder architecture)來完成機器翻譯的任務。當使用RNN讀入一個句子時候,另一個就會輸出一個句子。這種模型對於短句子有用,但是長句子卻效果不好。如圖: 可以看到隨着句子長度增長,Bleu Score在下降。因爲上面的模型要記住一整個很長的法語句子,然後在Decoder中輸出。而人工翻譯可
相關文章
相關標籤/搜索