Attention is all you need

Abstract 摘要主要的序列轉換模型是基於複雜的遞歸或卷積神經網絡,其中包括編碼器和解碼器。性能最好的模型還通過注意機制連接編碼器和解碼器。我們提出了一種新的簡單的網絡結構——變形金剛,它完全基於注意力機制,完全省去了遞歸和卷積。在兩個機器翻譯任務上的實驗表明,這些模型在質量上更優,同時具有更大的並行性,並且需要更少的訓練時間。我們的模型在2014年WMT英德翻譯任務中達到28.4 BLEU。
相關文章
相關標籤/搜索