attention機制

在計算attention時主要分爲三步,第一步是將query和每個key進行相似度計算得到權重,常用的相似度函數有點積,拼接,感知機等;然後第二步一般是使用一個softmax函數對這些權重進行歸一化;最後將權重和相應的鍵值value進行加權求和得到最後的attention。目前在NLP研究中,key和value常常都是同一個,即key=value。
相關文章
相關標籤/搜索