additive attention 與 dot product attention

時間 2021-01-10

標籤 NLP 简体版

原文原文鏈接

最常用的注意力機制爲additive attention 和dot product attention additive attention ：在 d k d_k dk較小時，兩者中additive attention優於不做scale的dot product attention，當 d k d_k dk較大時，dot product attention方差變大，會導致softmax函數中梯

>>阅读原文<<