Transformer論文詳解,論文完整翻譯(五)

Transformer論文詳解,論文完整翻譯(五) 第三章 模型結構(二) 3.2 attention 一個attention函數可以描述爲,將query和key-value對做一個映射,然後輸出。query,key,value和輸出,都是向量。輸出的計算方式是,對value進行加權求和,每個value的權重是query與相應key的一致性函數。 3.2.1 縮放的點積 Attention 我們稱
相關文章
相關標籤/搜索