CS231n學習筆記(十三)

時間:2019/4/4 內容:更好的優化、正則化 接上一份學習筆記,繼續講Adam 使用Adam,我們使用第一動量和第二動量的估計值。上圖紅框裏,我們讓第一動量的估計值等於梯度的加權和。我們有一個第二動量的動態估計值(AdaGrad, RMSProp),是一個梯度平方的動態近似值,下面我們來看如何更新他們。我們使用第一動量(類似於速度),併除以第二動量平方根 在最開始時會得到一個很大的步長,這並不
相關文章
相關標籤/搜索