深度學習(二十五)——Attention(2)

Attention(續) Multi-Head Attention 這個是Google提出的新概念,是Attention機制的完善。不過從形式上看,它其實就再簡單不過了,就是把Q,K,V通過參數矩陣映射一下,然後再做Attention,把這個過程重複做h次,結果拼接起來就行了,可謂「大道至簡」了。具體來說: headi=Attention(QWQi,KWKi,VWVi) h e a d i = A
相關文章
相關標籤/搜索