Attention機制的小理解

1.傳統的encode-decode模型      輸入序列:函數      輸出序列:學習      中間語義變量優化     因此對於,也就是編碼                這就代表輸入序列的每個元素對於輸出序列的每個元素的做用是等價的,這顯然是不合理的。好比機器翻譯中,中文「我愛你」,對應英語中「I love you」。其中「我」對於「I」和「love」的翻譯做用力顯然不一樣。爲了解決這
相關文章
相關標籤/搜索