Attention Is All You Need

時間 2021-07-14

原文原文鏈接

Attention Is All You Need 主流的sequence transduction模型是基於複雜的循環或卷積神經網絡，包括一個編碼器和一個解碼器。性能最好的模型還通過注意機制連接編碼器和解碼器。我們提出了一種新的簡單的網絡架構–Transformer，完全基於注意力機制，完全不需要遞歸和卷積。在兩個機器翻譯任務上的實驗表明，這些模型在質量上更勝一籌，同時可並行性更強，所需的訓練時

>>阅读原文<<