梯度下降公式理解(爲什麼使用cost function的導數?)

在gradient descent 梯度下降公式中,一般的表達都是如下: 之前沒有認真思考這個公式爲什麼這樣定義?只理解到學習率如何影響到最小值的獲得。 但是學習率 α 後爲什麼用 θ1處的求導呢?在吳恩達的課程論壇中也看到類似的提問: 論壇鏈接:爲什麼用這個公式 有個回答很清楚,我直接貼過來了。可以看出,其實可以不必使用cost function的導數。 但是用cost fucntion求導肯定
相關文章
相關標籤/搜索