LayerNorm是Transformer的最優解嗎?

前言 衆所周知,無論在CV還是NLP中,深度模型都離不開歸一化技術(Normalization)。在CV中,深度網絡中一般會嵌入批歸一化(BatchNorm,BN)單元,比如ResNet;而NLP中,則往往向深度網絡中插入層歸一化(LayerNorm,LN)單元,比如Transformer。 爲什麼在歸一化問題上會有分歧呢?一個最直接的理由就是,BN用在NLP任務裏實在太差了(相比LN),此外,B
相關文章
相關標籤/搜索