深度學習中的優化

深度學習的優化,基本算法有: 1. 隨機梯度下降 2. 動量 其實就是綜合歷史累計的梯度和當前梯度 3. Nesterov 動量 梯度值不是來自於當前梯度,而是來自於由歷史累計梯度得到的預測位置的梯度 由於學習率是難以設置的超參,於是有如下自適應學習率算法: 1. AdaGrad 當前學習率由初始學習率除以歷史梯度的累計平方和開根號得到 2. RMSProp 和AdaGrad相比,RMSProp提
相關文章
相關標籤/搜索