關於transformer機制的理解

transformer機制的論文來源: 谷歌論文《Attention all in you need》\ 論文地址 該模型的架構圖如下所示: 上面圖中左邊是encoder機制,右邊是decoder機制。 encoder機制是由6層組成,如下圖: 每一層的結構如下圖所示: 假設現在有兩個單詞(word1,word2)經過embedding之後的向量上圖中(x1,x2),輸入到self-attenti
相關文章
相關標籤/搜索