adagrad ,RMSProp Momentum

adagrad: 對於每一個 wti w i t ,都由前t-1對 wi w i 的梯度和的平方加上本次對 wi w i 梯度的平方再開根號。用這個值去除η。 缺點,隨着update的次數增多,learning rate會變得特別小,最終導致提前結束訓練。 δ是個小常數,通常設爲10^-7。這個是防止右值太小的話穩定學習率。 RMSProp: 對於α我們自己定義,0到1之間,越小也就越代表我們越相
相關文章
相關標籤/搜索