(DDPG)深度確定策略梯度調參體會

花了一個星期,昨晚終於調出了還算能工作的模型,真的很難。趕緊記下來備忘。 直接使用論文中的參數,我沒有把模型調出來,參數基本上都修改了。下圖是論文對於參數的配置說明。 按論文說的來。 1, 「a base learning rate of 10−3 and 10−4 for the actor and critic respectively」。論文使用 10−3 的學習率來訓練actor網絡,使用
相關文章
相關標籤/搜索