2020李宏毅學習筆記——4.Gradient Descent

最優化(optimization)。最優化就是發現能夠最小化損失函數值的這組參數W的過程。損失函數量化了一組特定權重的質量。最優化的目標是去發現能夠最小化損失函數值的那一組權重。 梯度告訴我們損失函數在每個維度上的斜率,所以我們可以使用梯度進行權重更新:梯度會告訴權重W和方向,當然還有超參數步長 一:公式: 1.重要元素: 元素:parameters(參數),η(學習率) 梯度下降直觀圖: 注意:
相關文章
相關標籤/搜索