Self-attention計算方法

三個矩陣 首先,Inputs爲x1~x4,是一個sequence,每個Input先經過一個Embedding,乘上一個Matrix獲得(a1,a4),而後放入self-attention 在self-attention當中,每個Input都分別乘上3個不一樣的Matrix產生3個不一樣的Vector,分別命名爲q,k,v q表明query,to match others,每個Input都乘上一個M
相關文章
相關標籤/搜索