論文精度(1)-- Lipschitz constrained parameter initialization for deep transformers

概覽 改變residual connection與layer normalization的位置可以緩解深層Transformer難以優化的問題。 作者比較了計算順序(residual connection與layer normalization的位置)上的細微差別,並提出了一種參數初始化方法,該方法利用Lipschitz約束對Transformer的參數進行初始化。 即使不調整原來的計算順序,應用
相關文章
相關標籤/搜索