GPT-2代碼解讀[2]：Attention

時間 2020-07-23

標籤 gpt 代碼解讀 attention 简体版

原文原文鏈接

GPT-2代碼解讀[2]：Attention Overview Attention模塊的結構如上圖所示，只有Linear部分是可訓練的，第一次Linear將嵌入向量轉換爲Q，K，V1html ，第二次Linear將Attention的結果從新轉換爲嵌入向量，做爲下一層的輸入。python 從信息的角度來講，嵌入向量首先被轉換2爲三種信息，即Query，Key和Value。信息的本性由用法（去向）決

>>阅读原文<<