譯文 Attention Is All You Need

摘要 主流的序列轉換模型基於負責的遞歸或者卷積神經網絡,包括編碼器和解碼器。性能最好的模型也是通過注意力機制鏈接編碼器和解碼器。我們提出來一種新的簡單的網絡結構——Transformer——僅僅基於注意力機制,完全不需要遞歸和卷積網絡。在兩個機器翻譯任務上的實驗表明,這些模型在質量上優於其他模型,且具有更高併發性和更少的訓練時間。我們模型在WMT 2014英語翻德語的任務上取得了28.4 BLEU
相關文章
相關標籤/搜索