Attention Is All You Need

Attention Is All You Need閱讀筆記 本文閱讀初衷是瞭解到paddlehub的enire是借鑑了這篇文章的算法。因此決定來看一下這篇經典論文。 摘要 CNN和RNN是現在主流的序列預測模型。這類序列預測模型包含一個編碼器和一個解碼器。性能最優的模型是通過一個注意力機制連接編碼器和解碼器的模型。我們在這裏提出一個新的模型架構,the Transformer。它依賴於注意力機制,
相關文章
相關標籤/搜索