深度學習中的BN_CBN_CmBN

BN: 反向傳播時經過該層的梯度是要乘以該層的參數的,即前向有: 反向傳播時便有: 那麼考慮從l層傳到k層的情況,有: 其中這個 便是問題所在。如果Wi小於1,就會發生提督彌散 而如果Wi大於1,那麼傳到這裏的時候又會有梯度爆炸問題 BN所做的就是解決這個梯度傳播的問題,因爲BN作用抹去了w的scale影響。 BN爲了保證非線性的獲得,對變換後的滿足均值爲0方差爲1的x又進行了scale加上shi
相關文章
相關標籤/搜索