深度學習中的優化方法總結(常見方法,動機,思路和優缺點)

隨機梯度下降SGD: 梯度下降算法(Gradient Descent Optimization)是神經網絡模型訓練最常用的優化算法: 缺點: 選擇合適的learning rate比較困難:如果數據是稀疏的,我們會想對出現頻率低的特徵進行快一點的更新,而高頻的進行慢一點的更新,這時候SGD就不太能滿足要求了 SGD容易收斂到局部最優,並且極容易被困在鞍點上,在這種點所有反向上的梯度值都爲0(如果設置
相關文章
相關標籤/搜索