多頭注意力機制的理解

時間 2020-12-30

原文原文鏈接

先來看圖：從圖片中可以看出V K Q 是固定的單個值，而Linear層有3個，Scaled Dot-Product Attention 有3個，即3個多頭；最後cancat在一起，然後Linear層轉換變成一個和單頭一樣的輸出值；類似於集成；多頭和單頭的區別在於複製多個單頭，但權重係數肯定是不一樣的；類比於一個神經網絡模型與多個一樣的神經網絡模型，但由於初始化不一樣，會導致權重不一樣，然後結果集

>>阅读原文<<