Adam優化器偏差矯正的理解

1、adam優化器公式 包括動量項和過去梯度平方的指數衰減平均 2、偏差校正後的,  3、Adam的參數更新公式 重點來了 第二部偏差矯正的公式是怎麼等到的??? 論文中的推導 但是不知道是怎麼變化來的,下面是我的理解 第一次迭代 初始化爲0,則 對上式左右求期望 這裏對vt展開了,直接套用期望的性質,那個沒有搞懂。。。 這樣就推出來那個公式了
相關文章
相關標籤/搜索