注意力機制的改進

Multi-Head Attention 對於Q和K一般先將降維然後在計算注意力,然後將此操作重複多次(h次)最後將結果拼接即爲多頭注意力。這裏假設降維的Q、K維度是 n ∗ ( d / h ) n*(d/h) n∗(d/h),點積後爲 n ∗ n n*n n∗n,也就是說要用一個 2 ∗ n ∗ ( d / h ) 2*n*(d/h) 2∗n∗(d/h)參數量去逼近一個 n 2 n^2 n2的參
相關文章
相關標籤/搜索