Transformer

基於自注意力的序列到序列模型 除長期依賴問題外,基於循環神經網絡的序列到序列模型的另一個不足是 無法並行計算。 爲了提高並行計算效率以及捕捉長距離的依賴關係, 可以使用自注意模型來建立一個全連接的網絡結構。 本文簡單介紹一個典型的基於自注意力的序列到序列模型: Transformer[Vaswaniet al., 2017]。 1.1 自注意力 對於一個向量序列 H = [ h 1 , ⋅ ⋅ ⋅
相關文章
相關標籤/搜索