Attention Is All You Need

https://arxiv.org/pdf/1706.03762.pdf 摘要 主流的基於Encoder-Decoder的序列轉換模型主要是基於複雜的遞歸或者卷積網絡。現在好的模型還會加上一層聚焦(attention)機制。這篇文章我們提出一種新的網絡框架,成爲:Transformer,主要是基於attention機制,rnn和cnn作爲補充。這種方法在準確率和訓練速度上面取得了相當不錯的效果 介
相關文章
相關標籤/搜索