Batch_ normalization、Layer_ normalization、Weight_ normalization的異同

1、先說爲什麼會有BN:   我們在訓練一個深度網絡的時候,每一層的結果對整體結果都有很大影響的。而我們每次網絡的輸入都是batch_size大小的,這樣做的目的是避免錯誤樣本導致的梯度更新錯誤,而就是這樣的batch_size個樣本,他們在中間層的網絡輸出按道理來說應該分佈是類似的,但是實際情況不是這樣,他們的輸出分佈是亂七八糟的,網絡層數越大,這種差異就越大,這就導致梯度更新方向手足無措,這個
相關文章
相關標籤/搜索