Exploring Self-attention for Image Recognition稿

時間 2020-12-30

原文原文鏈接

狹義的self attention self attention這個說法來自於attention is all you need這篇論文，它也是構成transformer的基礎。提出的原因是因爲基於rnn做attention的話，是無法做並行化且rnn的結構在長距離的依賴的時候效果並不好。 self attention是針對key，value，query三個變量來計算的。這三個變量都來自於

>>阅读原文<<