簡述動量Momentum梯度下降

梯度下降是機器學習中用來使模型逼近真實分佈的最小偏差的優化方法。  在普通的隨機梯度下降和批梯度下降當中,參數的更新是按照如下公式進行的: W = W - αdW  b = b - αdb 其中α是學習率,dW、db是cost function對w和b的偏導數。  隨機梯度下降和批梯度下降的區別只是輸入的數據分別是mini-batch和all。 然而,在曾經我發表的博客中提到了下圖的問題。   
相關文章
相關標籤/搜索