Transformer論文詳解，論文完整翻譯（六）

時間 2021-01-10

標籤 nlp 機器學習简体版

原文原文鏈接

Transformer論文詳解，論文完整翻譯（六）第三章模型結構（三） 3.2.2 多頭attention 替代了使用單獨的attention函數對模型維度對k，v和q進行操作，我們發現對q，k和v做h次不同的線性操作（映射）更加有效，進行線性操作轉換爲dk維，dk維和dv維度。這些操作我們進行平行的attention，每一個輸出dv維度的輸出v。將這些輸出拼接再做一次映射，得到最終的valu

>>阅读原文<<