Bert 結構理論 筆記 Bert理解

Bert理解 Attention Attention函數的本質可以被描述爲一個查詢(query)到一系列(鍵key-值value)對的映射     在計算attention時主要分爲三步,第一步是將query和每個key進行相似度計算得到權重,常用的相似度函數有點積,拼接,感知機等;然後第二步一般是使用一個softmax函數對這些權重進行歸一化;最後將權重和相應的鍵值value進行加權求和得到最後
相關文章
相關標籤/搜索