探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之間的關係

論文:On Layer Normalization in the Transformer Architecture                                                           推薦說明:我們知道,在原始的Transformer中,Layer Norm在跟在Residual之後的,我們把這個稱爲Post-LN Transformer;而且用Tr
相關文章
相關標籤/搜索