Multi-head整理—爲什麼 Transformer 需要進行 Multi-head Attention?

一.Attention is all you need論文中講模型分爲多個頭,形成多個子空間,每個頭關注不同方面的信息。 如果Multi-Head作用是關注句子的不同方面,那麼不同的head就應該關注不同的Token;當然也有可能是關注的pattern相同,但是關注的內容不同,即V不同。 但是大量的paper表明,transformer或Bert的特定層有獨特的功能,底層更偏向於關注語法;頂層更偏
相關文章
相關標籤/搜索