Attention Is All You Need 2017 論文筆記

Google Brain 通過self-attention,自己和自己做attention,使得每個詞都有全局的語義信息(長依賴 由於 Self-Attention 是每個詞和所有詞都要計算 Attention,所以不管他們中間有多長距離,最大的路徑長度也都只是 1。可以捕獲長距離依賴關係 提出multi-head attention,可以看成attention的ensemble版本,不同head
相關文章
相關標籤/搜索