擺脫肥宅,從我做起—day01

視頻學習 爲什麼有些小樣本數據集可以用很小的minibatch,好像有16,8的? 感覺就是平均的規則太「死板」,所以弄個加權。而普通加權又是另一種「死板」,所以用前面的所有「平均」代表當前數。之所以「指數」,是因爲,按公式一層層套進去之後,其實就是一個和貝塔有關的指數。 同理,普通梯度下降,梯度更新也太「死板」,所以借用指數加權平均思想,來更新梯度。(視頻有個球滾下碗的比喻,貝塔比喻摩擦,微分比
相關文章
相關標籤/搜索