transformer 模型(self-attention自注意力)

transformer模型在《Attention is all you need》論文中提出網絡 這篇論文主要亮點在於:1)不一樣於以往主流機器翻譯使用基於RNN的seq2seq模型框架,該論文用attention機制代替了RNN搭建了整個模型框架。2)提出了多頭注意力(Multi-headed attention)機制方法,在編碼器和解碼器中大量的使用了多頭自注意力機制(Multi-headed
相關文章
相關標籤/搜索