Batch Norm

文中圖片均出自本人之手,做的相當湊合 我們都知道在一個如下圖的單元中 將x1、x2、x3減去均值除以方差也就是使輸入數據的均值爲0方差爲1,可以加快該網絡的訓練速度。 如果是在如下圖的深層網絡中呢? 將輸入值x1、x2、x3進行歸一化操作之後只是加快了第一層網絡的速度,並不能對後邊的n層網絡產生影響,這時我們應該怎麼辦呢。 簡單來說就是將每一層前的輸入包括輸入層的x和隱藏層的a均進行減去均值除以方
相關文章
相關標籤/搜索