【深度強化學習】A3C

時間 2021-01-16

原文原文鏈接

上一篇對Actor-Critic算法的學習，瞭解Actor-Critic的流程，但由於普通的Actor-Critic難以收斂，需要一些其他的優化。而Asynchronous Advantage Actor-Critic（A3C）就是其中較好的優化算法。 A3C Introduction 之前學到的DQN算法，爲了方便收斂使用了經驗回放。Actor-Critic是否也可以使用這個方法呢？當然可以。不

>>阅读原文<<