(DDPG)深度確定策略梯度調參體會

時間 2021-01-12

原文原文鏈接

花了一個星期，昨晚終於調出了還算能工作的模型，真的很難。趕緊記下來備忘。直接使用論文中的參數，我沒有把模型調出來，參數基本上都修改了。下圖是論文對於參數的配置說明。按論文說的來。 1，「a base learning rate of 10−3 and 10−4 for the actor and critic respectively」。論文使用 10−3 的學習率來訓練actor網絡，使用

>>阅读原文<<