Adam那麼棒，爲什麼還對SGD念念不忘 (1)

時間 2021-01-22

原文原文鏈接

「說到優化算法，入門級必從 SGD 學起，老司機則會告訴你更好的還有AdaGrad / AdaDelta，或者直接無腦用 Adam。可是看看學術界的最新 paper，卻發現一衆大神還在用着入門級的 SGD，最多加個 Momentum 或者 Nesterov，還經常會黑一下 Adam。這是爲什麼呢？」機器學習界有一羣煉丹師，他們每天的日常是：拿來藥材（數據），架起八卦爐（模型），點着六味真火（

>>阅读原文<<