深度學習優化方法總結

SGD SGD一般指小批量梯度下降,每一次迭代計算小批量的梯度,然後對參數進行更新,是最常見的優化方法了即: g t = ∇ θ t − 1 f ( θ t − 1 ) g_t = \nabla_{\theta_{t-1}}f(\theta_{t-1}) gt​=∇θt−1​​f(θt−1​) Δ θ t = − η ∗ g t \Delta\theta_t = -\eta*g_t Δθt​=−η
相關文章
相關標籤/搜索