梯度下降(gradient descent)原理

目標:解決多變量函數的最優化問題 例如神經網絡中的損失函數(loss function): C ( w , b ) = 1 2 n ∑ x ∥ y ( x ) − a ∥ 2 C(w,b)=\frac{1}{2n}\sum_{x}\|y(x)-a\|^2 C(w,b)=2n1​x∑​∥y(x)−a∥2 其中 w w w和 b b b爲網絡的參數, x x x爲訓練樣本, n n n爲訓練樣本的數目
相關文章
相關標籤/搜索