深度學習入門筆記 Day9/15 與學習相關的技巧(一)

一、爲什麼SGD不夠完美 1. 在輸入參數的係數相差較爲巨大的時候,比如: 的時候,由於參數  變化對於y的影響比參數  變化要小得多,那麼在更新參數的時候,對於x1的更新就很不明顯,雖然上式的最小值明顯在 處,但是如果選擇初始值 可能最終收斂到的地方是。 2. 學習率對SGD影響也很大,如果選擇得過大,可能最終無法收斂;選擇得不適合,可能收斂速度很慢;選擇得過小,學習效率太低。 二、什麼是Mom
相關文章
相關標籤/搜索