additive attention 與 dot product attention

最常用的注意力機制爲additive attention 和dot product attention additive attention : 在 d k d_k dk​較小時,兩者中additive attention優於不做scale的dot product attention,當 d k d_k dk​較大時,dot product attention方差變大,會導致softmax函數中梯
相關文章
相關標籤/搜索