Exploring Self-attention for Image Recognition稿

狹義的self attention   self attention這個說法來自於attention is all you need這篇論文,它也是構成transformer的基礎。提出的原因是因爲基於rnn做attention的話,是無法做並行化且rnn的結構在長距離的依賴的時候效果並不好。   self attention是針對key,value,query三個變量來計算的。這三個變量都來自於
相關文章
相關標籤/搜索