通過理解全連接神經網絡 理解了attention

以往理解的全連接神經網絡的作用,是個memory,是用來分類, 而近期發現,全連接神經網絡其實是學到了 L層每個輸入節點 對 L+1層每個輸出節點 的加權求和貢獻比,每個邊是一個權重也就是一個輸入節點到一個輸出節點的貢獻 其實就是attention 回想transformer裏的K、V、Q,是可以把attention matrix看成全連接層的, [batch,seq_len1,seq_len2]
相關文章
相關標籤/搜索