Tensorflow2.0學習筆記(七)BatchNorm層

(1)BN的作用 從上圖可以看出,Sigmoid函數在[-2,2]區間導數值在[0.1,0.25],當輸入大於2或者小於2時,導數逼近於0,從而容易出現梯度彌散的現象。通過標準化後,輸入值被映射在0附近區域,此處的導數不會太小,不會容易出現梯度彌散的現象。 如上圖所示的損失函數等高線圖可知,當x1和x2分佈相近時,收斂更加快速,優化軌跡更好。 結論:通過標準化後,輸入值被映射在0附近區域,此處的導
相關文章
相關標籤/搜索