Transformer

時間 2020-12-22

原文原文鏈接

基於自注意力的序列到序列模型除長期依賴問題外，基於循環神經網絡的序列到序列模型的另一個不足是無法並行計算。爲了提高並行計算效率以及捕捉長距離的依賴關係，可以使用自注意模型來建立一個全連接的網絡結構。本文簡單介紹一個典型的基於自注意力的序列到序列模型： Transformer[Vaswaniet al., 2017]。 1.1 自注意力對於一個向量序列 H = [ h 1 , ⋅ ⋅ ⋅