常用的優化器及其優缺點

1. SGD 在這裏SGD和mini-batch是同一個意思,抽取m個小批量(獨立同分布)樣本,通過計算他們的平均梯度均值。 缺點: (1) leraning rate 選擇太小,收斂速度會很慢,如果太大,則loss function會在極小值附近不停的震盪,甚至片偏離。 (2) 容易被困在鞍點。   2. Momentum(動量) 要是當前時刻的梯度與歷史時刻梯度方向相似,這種趨勢在當前時刻則會
相關文章
相關標籤/搜索