NN學習技巧之參數最優化的四種方法對比(SGD, Momentum, AdaGrad, Adam),基於MNIST數據集

前面幾篇博文分析了每一種參數優化方案,如今作一個對比,代碼參考齋藤的紅魚書第六章。web 實驗對mnist數據集的6萬張圖片訓練,使用5層全鏈接神經網絡(4個隱藏層,每一個隱藏層有100個神經元),共迭代2000次,下圖是損失函數隨着訓練迭代次數的變化:shell 能夠看到SGD是最慢的,而AdaGrad最快, 且最終的識別精度也更高,這並非必定的,跟數據也有關 貼出部分迭代過程變化:網絡 ===
相關文章
相關標籤/搜索