優化器(Optimizer)介紹

Gradient Descent(Batch Gradient Descent,BGD) 梯度下降法是最原始,也是最基礎的算法。 它將所有的數據集都載入,計算它們所有的梯度,然後執行決策。(即沿着梯度相反的方向更新權重) 優點是在凸函數能收斂到最小值。但顯而易見的是,這方法計算量太大。假如我們的數據集很大的話,普通的GPU是完全執行不來的。還有一點,它逃不出鞍點,也容易收斂到局部最小值(也就是極小
相關文章
相關標籤/搜索