Attention原理圖解（非常詳細）

時間 2020-12-27

原文原文鏈接

1.前言希望大家結合上一篇博文講的seq2seq詳細總結來看，這樣的模型其實是存在缺點的：遺忘：輸入文本很長時，語義向量c 偏向於記住靠近它的幾個單詞，它的運行機制相當於讀完整個文本再去做翻譯，而我們人類會一句一句的翻譯，這樣就引入了Attention 機制它與 seq2seq 最大的不同是： seq2seq 的語義向量 c 是固定的，而Attention 每個時刻的語義向量 c 不同 s

>>阅读原文<<