【深度學習】:優化器的選擇

三種梯度下降法: 若是樣本很多,用標準梯度法會很慢,用隨機梯度會很快,但是由於每個樣本都會用來更新權重,會有噪聲的引入,會產生更新錯誤。 Momentum: 因此訓練速度會有一定的加快。 NAG(Nesterov accelerated gradient): Adagrad: RMSProp:基於adagrad的缺點提出了這個 Adadelta: Adam:
相關文章
相關標籤/搜索