泰勒展開式推導梯度下降

關於梯度下降的公式可能大家耳熟能詳,沿着梯度的反方向一步一步的移動,總能到達我們想要的最優點;可是爲什麼可以這樣做呢?開始我的答案無非就是「梯度的反方向就是損失值下降最快的方向」,最近看了李宏毅老師的梯度下降算法發現別有洞天,接下來我將以通俗的語言來詳細解釋梯度下降算法公式的數學推導過程。 推導梯度下降之前開始引入一個Feature scaling(特徵縮放):  假設我們要優化的目標函數爲:,當
相關文章
相關標籤/搜索