第七講--訓練神經網絡下--課時16--更好的優化

歸一化的作用: 當分割超平面改變時,預測分數變化較小。這樣,神經網絡容易訓練。 ------------------------------- 當各個超參數的作用不一樣大(神經網絡就是這樣),random search 理論上更有優勢。 ------------------------------ sgd的問題: (1)由於各個參數量級不一致,迭代呈之字形,很慢 (2)在接近局部極值的地方,梯度很
相關文章
相關標籤/搜索