常見問題

BN(Batch Normalization)層的作用 (1)加速收斂(2)控制過擬合,可以少用或不用Dropout和正則(3)降低網絡對初始化權重不敏感(4)允許使用較大的學習率 如果我們使用去除相關性的算法,例如PCA和ZCA白化,數據不再是一個狹長的分佈,隨機分界面有效的概率就又大大增加了。 Google在ICML文中描述的非常清晰,即在每次SGD時,通過mini-batch來對相應的act
相關文章
相關標籤/搜索