optimize-method

文章目錄 Gradient Descent Adaptive learning rate Adagrad SGD Feature Scale math theory Gradient Descent Adaptive learning rate 1、開始時,與最優解差距較大,可以使用加大的lr 2、在幾次迭代之後,已經與最優解很接近了,這是可以減小lr 如1/t的衰減,lr(t)=lr/squre
本站公眾號
   歡迎關注本站公眾號,獲取更多信息