【算法】最優化之RDA正則化雙平均

sgd: 對損失項和正則化項一刀切,沒對正則化項區別對待。以致 1)優化速度慢;2)準確性不高。 rda: regularized dual averaging 正則雙平均 對損失項和正則化項區分考慮,獲得正則化項的閉合形解。在優化速度方面優於sgd。 爲什麼稱爲雙平均? 在損失項子梯度中,一是對歷史子梯度的平均,二是對當前子梯度的平均。
相關文章
相關標籤/搜索