Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention閱讀筆記

1 Abstract 最近在NLP領域,普遍都通過增大神經網絡的深度來增強模型的性能和模型容量,然而簡單的堆疊神經網絡例如在Transformer模型中,會使模型變得難以訓練,收斂性會變差並且還會使計算複雜度增高。 在本文中,作者認爲深度模型難以收斂主要是因爲梯度消失現象,而這一現象在Transformer中主要是由於殘差鏈接和層正則化之間的相互影響。 在本文中,作者提出了兩個方法來解決上述問題:
相關文章
相關標籤/搜索