Attention機制鳥瞰(16年開始)

背景知識 Attention機制可以理解爲一種文本聚焦方法,基本思想是對文本分配注意力權重,把注意力集中在相關的文本內容,增加這部分的貢獻。 假設q_t就是時刻t下的query向量,K是key矩陣,k_s是其中一個key向量,V是value矩陣,我們先對q_t和每個key進行相似度計算得到一個非歸一化的score分數: 這裏用到是最簡單的點乘,分母是爲了調節內積結果,使得內積不那麼大。 然後對sc
相關文章
相關標籤/搜索