注意力機制的改進

時間 2020-12-30

原文原文鏈接

Multi-Head Attention 對於Q和K一般先將降維然後在計算注意力，然後將此操作重複多次(h次)最後將結果拼接即爲多頭注意力。這裏假設降維的Q、K維度是 n ∗ ( d / h ) n*(d/h) n∗(d/h)，點積後爲 n ∗ n n*n n∗n，也就是說要用一個 2 ∗ n ∗ ( d / h ) 2*n*(d/h) 2∗n∗(d/h)參數量去逼近一個 n 2 n^2 n2的參

>>阅读原文<<