論文賞析【EMNLP19】多粒度自注意力機制(MG-SA)

論文地址 Multi-Granularity Self-Attention for Neural Machine Translation[1] 介紹 現在主流的機器翻譯模型基本都是採用多頭注意力機制來對句子進行編碼解碼,但是有一些研究表明,這麼多 head 其實並不是都有用的,有些 head 的信息是冗餘的,所以本文就想充分利用一下這些冗餘的 head 。 此外,統計機器翻譯的研究也表明了,對短語
相關文章
相關標籤/搜索