爲什麼隨機梯度算法中每一次都只用一個樣本,卻能保證參數最後收斂?

    借鑑https://www.sohu.com/a/131923387_473283中的一段內容: 隨機梯度下降算法最大的缺點就是在每次更新時可能並不會按照正確的方向進行,因此可能在優化的過程中帶來擾動。如圖     批處理最後得到是一個局部的最小值,隨機處理用每一個樣本更新,可能沒有使用全部的數據會在另一個地方找到了局部最小值。讓我用一個例子來說明這個問題:     隨機梯度處理就是比如你
相關文章
相關標籤/搜索