深度學習（二十五）——Attention（2）

時間 2020-12-28

原文原文鏈接

Attention（續） Multi-Head Attention 這個是Google提出的新概念，是Attention機制的完善。不過從形式上看，它其實就再簡單不過了，就是把Q,K,V通過參數矩陣映射一下，然後再做Attention，把這個過程重複做h次，結果拼接起來就行了，可謂「大道至簡」了。具體來說： headi=Attention(QWQi,KWKi,VWVi) h e a d i = A

>>阅读原文<<