多頭注意力機制的理解

先來看圖: 從圖片中可以看出V K Q 是固定的單個值,而Linear層有3個,Scaled Dot-Product Attention 有3個,即3個多頭;最後cancat在一起,然後Linear層轉換變成一個和單頭一樣的輸出值;類似於集成;多頭和單頭的區別在於複製多個單頭,但權重係數肯定是不一樣的;類比於一個神經網絡模型與多個一樣的神經網絡模型,但由於初始化不一樣,會導致權重不一樣,然後結果集
相關文章
相關標籤/搜索