Transformer學習筆記

一、 Transformer Transformer結構是在《Attention is all you need》這篇論文中提出的,論文的幾大亮點在於:1)不同於以往基於RNN的seq2seq模型,該論文中用attention機制替代了RNN搭建了整個模型框架;2)提出了多頭注意力(Multi-headed attention)方法,在編碼器和解碼器中大量使用多頭自注意力機制(Multi-head
相關文章
相關標籤/搜索