動手實現 Bahdanau 注意力模型

時間 2021-01-16

原文原文鏈接

前一篇我們學習了 seq2seq 模型，從它的模型結構中我們可以看到存在兩個瓶頸：例如，當我們用 seq2seq 翻譯一句話時，它的 Encoder 需要將原始句子中的主語，謂語，賓語，以及主謂賓之間的關係等信息都壓縮到一個固定長度的上下文向量中，這個向量的長度通常只是 128 或者 256，如果輸入數據很長時，就會有很多信息無法被壓縮進這麼短的向量中。另一個瓶頸是，這個上下文向量在 Deco

>>阅读原文<<