CV第七講

一、知識梳理 二、優策策略—一階函數(減少訓練誤差) 1、爲什麼在權重對損失函數敏感程度不同時,SGD會走Z字型? 如下圖,損失函數對豎直方向敏感,因此在優化權重時在豎直方向走的多,在水平方向走的少。(爲何在等高線上來回震盪呢?還是因爲豎直方向敏感,因此豎直方向上走的距離要多於水平方向,因此不得不來回震盪)  2、鞍點與極值點的區別? 鞍點和局部極小值相同的是,在該點處的梯度都等於零,不同在於在鞍
相關文章
相關標籤/搜索