爲何會出現Batch Normalization層

訓練模型時的收斂速度問題 衆所周知,模型訓練須要使用高性能的GPU,還要花費大量的訓練時間。除了數據量大及模型複雜等硬性因素外,數據分佈的不斷變化使得咱們必須使用較小的學習率、較好的權重初值和不容易飽和的激活函數(如sigmoid,正負兩邊都會飽和)來訓練模型。這樣速度天然就慢了下來。html 下面先簡單示例一下數據分佈的不斷變化爲何會帶來這些問題,如圖: 咱們使用Wx+b=0對小黃和小綠進行分類
相關文章
相關標籤/搜索