各種梯度下降

1 全量梯度下降(BGD) 全量梯度下降每次都使用整個訓練集,因此每次更新都會朝着正確的方向進行,最後能夠保證收斂於極值點,凸函數收斂於全局極值點,非凸函數可能收斂於局部極值點,缺陷就是學習時間太長,消耗大量內存。 2 隨機梯度下降法(SGD) SGD一輪迭代只用於一條隨機選擇女的數據,儘管SGD迭代次數比BGD大很多,但一次學習時間非常快。缺點在於每次更新可能不會按照正確的方向進行,參數更新具有
相關文章
相關標籤/搜索