Attention各個維度計算方法

這裏是對self-Attention具體的矩陣操作,包括怎麼separate head,如何進行的QK乘法等細節做了記錄,以便自己以後查看。 dot-product Attention 其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel​一般是seq序列,n爲序列的長度, d m o d e l d_{model} dmodel​爲序列的emedding
相關文章
相關標籤/搜索