神經網絡優化:指數衰減計算平均值(滑動平均)

Polyak平均會平均優化算法在參數空間訪問中的幾個點。如果t次迭代梯度下降訪問了點,那麼Polyak平均算法的輸出是。 當應用Polyak平均於非凸問題時,通常會使用指數衰減計算平均值:                                       1. 用滑動平均估計局部均值   滑動平均(exponential moving average),或者叫做指數加權平均(expone
相關文章
相關標籤/搜索