深度學習激活函數 和 優化函數總結

1、SGD,Momentum,Adagard,Adam原理? 【第一張圖爲不同算法在損失平面等高線上隨時間的變化情況】 【第二張圖爲不同算法在鞍點處的行爲比較。】 SGD(Stochastic Gradient Descent )(隨機梯度下降) 【意義】單純的梯度計算容易得到局部最優解,這個時候引入隨機變量能很好的在保證梯度下降大體方向情況下得到最優解。也就是說,雖然包含一定的隨機性,但是從期望
相關文章
相關標籤/搜索