論文筆記Transformer:Attention is all you need

1 介紹 主流的序列轉換模型是基於複雜的循環或卷積神經網絡,它們包括一個encoder和一個decoder。表現最好的模型也是用attention 機制連接encoder和decoder。我們提出了一個新的簡單網絡模型,即Transformer,該模型僅僅依靠attention機制,不用循環或卷積網絡。實驗結果顯示該模型不僅質量很好,而且可以並行,需要較少的時間訓練。 循環網絡模型主要是輸入和輸出
相關文章
相關標籤/搜索