[paper] Batch Normalization

Batch Normalization 論文地址:https://arxiv.org/abs/1502.03167 Abstract 深度網絡訓練時,每一層的輸入都是前一層的輸出 out=WT∗X o u t = W T ∗ X 所以 W W 的梯度嚴重收到 X X 分佈的影響,如果 X X 一會這樣一會那樣就會很難收斂 我們將這種現象稱爲內部協變量轉移(internal covariate sh
相關文章
相關標籤/搜索