邱錫鵬 神經網絡與深度學習課程【十二】——注意力機制和外部記憶1和2

注意力機制的變體 硬性注意力 一般用的少 因爲不可導 用的最多的是鍵值對注意力  多頭注意力 和 結構化注意力 結構化的比較難  指針網絡 自注意力模型: 使用RNN或者CNN 只建模了輸入信息的局部依賴關係  如何處理非局部的依賴關係 可以使用全連接 但沒有辦法處理變長的問題  實例:  QKV模式 Query-Key-Value  細節計算:  多頭自注意力模型: 成功的使用:Transfor
相關文章
相關標籤/搜索