SGD方法的好處和失效的場景,以及解決辦法

SGD方法的好處和失效的場景,以及解決辦法 SGD方法的好處是,不必計算所有樣本的梯度, 這樣做的效果是快,快在兩方面,一方面計算快,一方面是收斂快, 計算快好理解,只計算了一個樣本的梯度, 收斂快是指,如果不是特別差的損失函數,(這裏差是指難優化的意思), 假設數據量100w,那麼全局梯度下降更新一次梯度的計算時間,sgd已經更新了100w次,所以到達收斂狀態所需的時間更短了。 失效的場景: 因
相關文章
相關標籤/搜索