Batch Normalization原理理解與作用

一、原始神經網絡層和Internal Covariate Shift問題 在原始DNN中,隱藏層(HiddenLayer)將輸入x通過係數矩陣W相乘得到線性組合z=Wx,再通過激活函數a=f(z),得到隱藏層的輸出a(X可以爲輸入層輸入或者上一個隱藏層的輸出),具體結構如下: 圖中爲一個批次(batch)的樣本在隱藏層的傳播過程。由於批次的不斷傳入和訓練,DNN內部參數在不斷改變,導致每一次隱藏層
相關文章
相關標籤/搜索