self-attention and transformer

https://zhuanlan.zhihu.com/p/46990010 1. Attention機制 Attention用於計算"相關程度", 例如在翻譯過程中,不同的英文對中文的依賴程度不同,Attention通常可以進行如下描述,表示爲將query(Q)和key-value pairs  映射到輸出上,其中query、每個key、每個value都是向量,輸出是V中所有values的加權,其
相關文章
相關標籤/搜索