Self-attention計算方法

時間 2020-01-22

標籤 self attention 計算方法简体版

原文原文鏈接

三個矩陣首先，Inputs爲x1~x4，是一個sequence，每個Input先經過一個Embedding，乘上一個Matrix獲得(a1,a4)，而後放入self-attention 在self-attention當中，每個Input都分別乘上3個不一樣的Matrix產生3個不一樣的Vector，分別命名爲q，k，v q表明query，to match others，每個Input都乘上一個M

>>阅读原文<<