Attention Is All You Need

摘要:以複雜循環或卷積神經網絡爲基礎的顯性序列轉化模型,包括編碼和解碼。最好表現的模型也連接編碼和解碼通過注意力機制。我們提出一種新的簡單網絡架構,Transformer, 只基於注意力機制,丟棄循環和卷積網絡。在兩個機器翻譯任務上的實驗顯示這些模型在質量上更好,並能更好並行化,要求更少時間訓練。 1 簡介 循環網絡,LSTM和門循環網絡是在序列建模和轉化問題例如語言建模和機器翻譯任務中最好的方法
相關文章
相關標籤/搜索