筆記 - 梯度下降:平原現象與振盪現象

TODO 從數學上證明梯度下降更新會導致參數發散 更新 不理解 畢竟初始化的時候,已經是0~1之間了,感覺常規的參數初始化應該不會對 梯度發散有什麼影響吧 引起梯度下降異常的因素: 1.樣本輸入特徵的數據(樣本的輸入如果很大,求出來的梯度也會很大) 或則說樣本數據極其不穩定,由於樣本的不穩定導致計算的梯度值也不穩定 2.權重初始化的大小(目前只能理解在非凸函數上成立,但上面的意思,似乎在凸函數上也
相關文章
相關標籤/搜索