注意力機制----transformer中注意力機制

注意力機制的計算: 要計算s_j就要先計算c_j, 要計算c_j就要先計算a_j:   將decoder當前狀態s_j與m個h_i做運算得到權重向量(權重的具體計算見下) h_i,s_j 各自乘以權重矩陣W_K,W_Q k,q進行內積 經softmax 一共有三個「權重矩陣」: 在seq2seq版本注意力機制中,c的更新依靠: a和h(encoder狀態) 在transformer版本的注意力機制
相關文章
相關標籤/搜索