Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention閱讀筆記

時間 2021-01-02

標籤論文筆記简体版

原文原文鏈接

1 Abstract 最近在NLP領域，普遍都通過增大神經網絡的深度來增強模型的性能和模型容量，然而簡單的堆疊神經網絡例如在Transformer模型中，會使模型變得難以訓練，收斂性會變差並且還會使計算複雜度增高。在本文中，作者認爲深度模型難以收斂主要是因爲梯度消失現象，而這一現象在Transformer中主要是由於殘差鏈接和層正則化之間的相互影響。在本文中，作者提出了兩個方法來解決上述問題：

>>阅读原文<<

相關標籤/搜索

閱讀筆記

seq2seq+attention+transformer

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。