(轉)優化時該用SGD,還是用Adam?——絕對乾貨滿滿!

優化時該用SGD,還是用Adam?——絕對乾貨滿滿!   最近在實驗中發現不同的優化算法以及batch_size真的對模型的訓練結果有很大的影響,上網搜了很多關於各種優化算法(主要是SGD與Adam)的講解,直到今天看到知乎上一位清華大神的總結與詮釋,收穫很大,特轉載記錄一下~ 原文(知乎)鏈接:   Adam那麼棒,爲什麼還對SGD念念不忘 (1) —— 一個框架看懂優化算法   Adam那麼棒
相關文章
相關標籤/搜索