Attention原理圖解(非常詳細)

1.前言 希望大家結合上一篇博文講的seq2seq詳細總結來看,這樣的模型其實是存在缺點的: 遺忘:輸入文本很長時,語義向量c 偏向於記住靠近它的幾個單詞,它的運行機制相當於讀完整個文本再去做翻譯,而我們人類會一句一句的翻譯,這樣就引入了Attention 機制 它與 seq2seq 最大的不同是: seq2seq 的語義向量 c 是固定的,而Attention 每個時刻的 語義向量 c 不同 s
相關文章
相關標籤/搜索