2020李宏毅學習筆記——4.Gradient Descent

時間 2021-01-02

原文原文鏈接

最優化（optimization）。最優化就是發現能夠最小化損失函數值的這組參數W的過程。損失函數量化了一組特定權重的質量。最優化的目標是去發現能夠最小化損失函數值的那一組權重。梯度告訴我們損失函數在每個維度上的斜率，所以我們可以使用梯度進行權重更新：梯度會告訴權重W和方向，當然還有超參數步長一：公式： 1.重要元素：元素：parameters（參數），η（學習率）梯度下降直觀圖：注意：