CS231 筆記

SGD with momentum有兩種寫法 效果等價 Adam中的bias  correction項的存在是出於以下考慮:first_momentum以及second_momentum都初始化爲0,爲了僅在開始的幾次迭代中增大他們的影響,增加了一個參數爲t的correction,值得注意的是,t的值隨時間增大,也就是說放大效果越來越弱。
相關文章
相關標籤/搜索