深度學習筆記二:梯度下降算法

下山問題     打個比方,一個人從山頂想要去山腳,首先要找到下山最快的 方向(梯度),走一步,再重新找到最快的方向,再走一步,如此重複到達山腳。 梯度下降算法     神經網絡的訓練過程中會不斷更新參數,我們先用損失函數對參數求梯度(方向),然後在按照一個學習率(步長),進行參數的調整。     找到合適的學習率對訓練神經網絡很重要,過大的學習率可能導致模型不收斂,即找不到loss的最小值;學習
相關文章
相關標籤/搜索