優化算法

min-batch梯度下降法: 把訓練集分成小一點的子集,取名爲min-batch。 指數加權平均: 當β爲0.98時,大約得到的溫度爲之前五十天的平均溫度。 指數加權平均的偏差修正,因爲初始有可能太小了 動量梯度下降算法: 減少縱向的波動,平穩靠近最小值的點。 RMSprop算法: 增加橫軸的變化速度,所以除一個小的數,減小縱軸的變化所以除一個大的數。 Adam算法(實際上就是將上述兩個算法結合
相關文章
相關標籤/搜索