Attention的兩種機制——global attention/local attention

目錄 1 Global Attention全局注意力機制 權重計算函數 Local Attention References:   1 Global Attention全局注意力機制 權重計算函數 眼尖的同學肯定發現這個attention機制比較核心的地方就是如何對Query和key計算注意力權重。下面簡單總結幾個常用的方法: 1、多層感知機方法   主要是先將query和key進行拼接,然後接一
相關文章
相關標籤/搜索