梯度下降的算法筆記

SGD SGD是最傳統的梯度下降方法. 我們設需要優化的參數是 θ , θt 表示第 t 個時刻參數 θ 的值. 設輸入是 x ,要優化的目標函數是 f(x) . gtΔθt==∇θt−1f(x,θt−1)−η∗gt 其中, η 是全局學習率. Momentum Momentum這種方法引入了動量的概念,除了當前得到的梯度,算法還會考慮上一次的梯度. mtΔθt==μ∗mt−1+gt−η∗mt 其
相關文章
相關標籤/搜索