2019-05-29(自適應學習率)

前言 通常我們所說的學習率變換冊率是針對參數更新時梯度前面的係數而言的,而非全局學習率(也可以根據相關算法來調節),我們所要調節的學習率由全局學習率而來,是參數更新的重要係數。 AdaGrad 輸入參數:全局學習率、初始化參數、小常量(避免分母爲0,例如) 算法過程: 來源 image 總結: 優點 隨着迭代次數的增大r越來越大,r位於分母上,所以一般來說AdaGrad算法開始時是激勵收斂,後期就
相關文章
相關標籤/搜索