強化學習4

時間 2021-05-16

標籤深度學習算法人工智能简体版

原文原文鏈接

1 keyword A2C： Advantage Actor-Critic的縮寫，一種Actor-Critic方法。 A3C： Asynchronous（異步的）Advantage Actor-Critic的縮寫，一種改進的Actor-Critic方法，通過異步的操作，進行RL模型訓練的加速。 Pathwise Derivative Policy Gradient：其爲使用 Q-learning

>>阅读原文<<