【深度學習】：優化器的選擇

時間 2021-01-02

原文原文鏈接

三種梯度下降法：若是樣本很多，用標準梯度法會很慢，用隨機梯度會很快，但是由於每個樣本都會用來更新權重，會有噪聲的引入，會產生更新錯誤。 Momentum：因此訓練速度會有一定的加快。 NAG（Nesterov accelerated gradient）： Adagrad： RMSProp：基於adagrad的缺點提出了這個 Adadelta： Adam：

>>阅读原文<<