Adam那麼棒,爲什麼還對SGD念念不忘 (1)

「 說到優化算法,入門級必從 SGD 學起,老司機則會告訴你更好的還有AdaGrad / AdaDelta,或者直接無腦用 Adam。可是看看學術界的最新 paper,卻發現一衆大神還在用着入門級的 SGD,最多加個 Momentum 或者 Nesterov,還經常會黑一下 Adam。這是爲什麼呢?」 機器學習界有一羣煉丹師,他們每天的日常是: 拿來藥材(數據),架起八卦爐(模型),點着六味真火(
相關文章
相關標籤/搜索