Batch Normalization解讀

1.爲什麼要用BN  在神經網絡訓練過程中,經常會出現梯度爆炸或者梯度消失的問題,導致網絡訓練困難,特別是在網絡層數較多的情況下,網絡層數多,網絡更新一次,較後的層的輸入數據的分佈會發生較大變化,所以後面的層又要適應這種變化,相當於要求這些層能適應不同分佈的輸入,並總結出規律,這就導致網絡訓練很慢,而且不一定會收斂。如果保證每一層的輸入的分佈是穩定的,那麼網絡訓練起來會收斂的更快,而且更不依賴於初
相關文章
相關標籤/搜索