LayerNorm是Transformer的最優解嗎？

時間 2021-01-01

原文原文鏈接

前言衆所周知，無論在CV還是NLP中，深度模型都離不開歸一化技術（Normalization）。在CV中，深度網絡中一般會嵌入批歸一化（BatchNorm，BN）單元，比如ResNet；而NLP中，則往往向深度網絡中插入層歸一化（LayerNorm，LN）單元，比如Transformer。爲什麼在歸一化問題上會有分歧呢？一個最直接的理由就是，BN用在NLP任務裏實在太差了（相比LN），此外，B

>>阅读原文<<