Attention

時間 2021-05-30

原文原文鏈接

Attention的常見做法: 第一步：S=F(Q,K) 第二步：A=Softmax（S）第三步：multiply(A,V) 第一步是個相似度的計算，常見的相似度計算有點乘，拼接，感知機。第二步是搞成概率的樣子，就是相加爲1，第三步是一個點乘就是讓每個部分乘上他的權重然後得到最後Attention輸出的值。 TensorFlow中兩個實現： tf.nn.softmax(S) tf.multipl