Attention各個維度計算方法

時間 2020-12-23

標籤筆記總結简体版

原文原文鏈接

這裏是對self-Attention具體的矩陣操作，包括怎麼separate head，如何進行的QK乘法等細節做了記錄，以便自己以後查看。 dot-product Attention 其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel一般是seq序列，n爲序列的長度， d m o d e l d_{model} dmodel爲序列的emedding

>>阅读原文<<