Attention模型

時間 2020-12-30

原文原文鏈接

1、注意力模型的直觀理解我們以前用過這種Seq2Seq的編碼解碼架構（a Encoder-Decoder architecture）來完成機器翻譯的任務。當使用RNN讀入一個句子時候，另一個就會輸出一個句子。這種模型對於短句子有用，但是長句子卻效果不好。如圖：可以看到隨着句子長度增長，Bleu Score在下降。因爲上面的模型要記住一整個很長的法語句子，然後在Decoder中輸出。而人工翻譯可

>>阅读原文<<