CS231n系列課程Lecture6: Training Neural Networks, Part 2

課程鏈接: https://pan.baidu.com/s/1mhGp08K 密碼: xgex Parameter Updates 1.梯度下降(最速下降法) 這個就是簡單的梯度下降, dx 就是求出的梯度,就是個微小增量,學習率是設置的超參數,也就是步長,如果梯度爲正,所以說明函數上升,所以 x 要加上負梯度。求出的梯度只有方向,學習率決定 x 改變的大小,這就是最簡單的梯度下降的思想 那麼按照
相關文章
相關標籤/搜索