卷積神經網絡(CNN)介紹05-優化器

常見優化器介紹 Batch Gradient Descent(BGD) ★ 梯度更新規則: BGD 採用整個訓練集的數據來計算 cost function 對參數的梯度。 ★ 缺點: 由於這種方法是在一次更新中,就對整個數據集計算梯度,所以計算起來非常慢,遇到很大量的數據集也會非常棘手,而且不能投入新數據實時更新模型。 Batch gradient descent 對於凸函數可以收斂到全局極小值,
相關文章
相關標籤/搜索