Attention機制的小理解

1.傳統的encode-decode模型      輸入序列:      輸出序列:      中間語義變量     所以對於,也就是                這就表明輸入序列的每一個元素對於輸出序列的每一個元素的作用是等價的,這顯然是不合理的。比如機器翻譯中,中文「我愛你」,對應英語中「I love you」。其中「我」對於「I」和「love」的翻譯作用力顯然不同。爲了解決這個問題,我們希
相關文章
相關標籤/搜索