Attention

Attention的常見做法: 第一步:S=F(Q,K) 第二步:A=Softmax(S) 第三步:multiply(A,V) 第一步是個相似度的計算,常見的相似度計算有點乘,拼接,感知機。第二步是搞成概率的樣子,就是相加爲1,第三步是一個點乘就是讓每個部分乘上他的權重然後得到最後Attention輸出的值。 TensorFlow中兩個實現: tf.nn.softmax(S) tf.multipl
相關文章
相關標籤/搜索