強化學習4

1 keyword A2C: Advantage Actor-Critic的縮寫,一種Actor-Critic方法。 A3C: Asynchronous(異步的)Advantage Actor-Critic的縮寫,一種改進的Actor-Critic方法,通過異步的操作,進行RL模型訓練的加速。 Pathwise Derivative Policy Gradient: 其爲使用 Q-learning
相關文章
相關標籤/搜索