Multi-head整理—爲什麼 Transformer 需要進行 Multi-head Attention？

時間 2021-07-12

標籤 Multi-head transformer head self-attention 简体版

原文原文鏈接

一.Attention is all you need論文中講模型分爲多個頭，形成多個子空間，每個頭關注不同方面的信息。如果Multi-Head作用是關注句子的不同方面，那麼不同的head就應該關注不同的Token；當然也有可能是關注的pattern相同，但是關注的內容不同，即V不同。但是大量的paper表明，transformer或Bert的特定層有獨特的功能，底層更偏向於關注語法；頂層更偏

>>阅读原文<<

相關標籤/搜索

爲什麼

seq2seq+attention+transformer

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。