論文精度（1）-- Lipschitz constrained parameter initialization for deep transformers

時間 2020-12-23

標籤 Deep NetWork paper 參數初始化論文機器翻譯 nlp 欄目系統網絡简体版

原文原文鏈接

概覽改變residual connection與layer normalization的位置可以緩解深層Transformer難以優化的問題。作者比較了計算順序（residual connection與layer normalization的位置）上的細微差別，並提出了一種參數初始化方法，該方法利用Lipschitz約束對Transformer的參數進行初始化。即使不調整原來的計算順序，應用

>>阅读原文<<