Attention is all you need

時間 2021-07-11

原文原文鏈接

Abstract 摘要主要的序列轉換模型是基於複雜的遞歸或卷積神經網絡，其中包括編碼器和解碼器。性能最好的模型還通過注意機制連接編碼器和解碼器。我們提出了一種新的簡單的網絡結構——變形金剛，它完全基於注意力機制，完全省去了遞歸和卷積。在兩個機器翻譯任務上的實驗表明，這些模型在質量上更優，同時具有更大的並行性，並且需要更少的訓練時間。我們的模型在2014年WMT英德翻譯任務中達到28.4 BLEU。