深度學習中的優化算法

時間 2020-12-27

原文原文鏈接

梯度下降沿着整個訓練集的梯度方向下降。可以使用隨機梯度下降很大程度地加速，沿着隨機挑選的小批量數據的梯度下降。批量算法和小批量算法使用小批量的原因 n個樣本均值的標準差是σn√σn，其中σσ是樣本值真實的標準差。分母n−−√n表明使用更多的樣本來估計梯度的方法的回報是低於線性的。另一個促使從小數目樣本中獲得梯度的統計估計的動機是訓練集的冗餘。大量樣本可能對梯度做出了非常相似的貢獻。可能是由

>>阅读原文<<