Attention Is All You Need

Attention Is All You Need 主流的sequence transduction模型是基於複雜的循環或卷積神經網絡,包括一個編碼器和一個解碼器。性能最好的模型還通過注意機制連接編碼器和解碼器。我們提出了一種新的簡單的網絡架構–Transformer,完全基於注意力機制,完全不需要遞歸和卷積。在兩個機器翻譯任務上的實驗表明,這些模型在質量上更勝一籌,同時可並行性更強,所需的訓練時
相關文章
相關標籤/搜索