Transformer論文詳解,論文完整翻譯(六)

Transformer論文詳解,論文完整翻譯(六) 第三章 模型結構(三) 3.2.2 多頭attention 替代了使用單獨的attention函數對模型維度對k,v和q進行操作,我們發現對q,k和v做h次不同的線性操作(映射)更加有效,進行線性操作轉換爲dk維,dk維和dv維度。這些操作我們進行平行的attention,每一個輸出dv維度的輸出v。將這些輸出拼接再做一次映射,得到最終的valu
相關文章
相關標籤/搜索