《Attention is all you need》論文筆記

Abstract 一般來說,重要的 sequence transduction 模型都是基於包含 Encoder,Decoder 的複雜的 RNN 和 CNN 的。最好的模型是通過一個 attention 機制來連接 Encoder,Decoder。本文提出一種簡單的架構——Transformer,只用注意力機制,和 CNN、RNN 沒有關係。 在兩個翻譯任務實驗證明該模型又快又好 WMT 201
相關文章
相關標籤/搜索