transformer 原理及源碼

左邊encoder ,右邊是decoder 圖中是4維 ,論文中是512,x 乘 WQ,WK,WV(隨機初始化)得到 q ,k,v。 爲何要乘 WQ,WK,WV 而不直接使用qkv 首先增加參數可以增加學習能力,如果沒經過 WQ,WK,WV,則qkv一般就固定的值,後面q 乘 k的時候,兩個相似度大的向量會得到很大的值 Multi-headed
相關文章
相關標籤/搜索