【深度強化學習】A3C

上一篇對Actor-Critic算法的學習,瞭解Actor-Critic的流程,但由於普通的Actor-Critic難以收斂,需要一些其他的優化。而Asynchronous Advantage Actor-Critic(A3C)就是其中較好的優化算法。 A3C Introduction 之前學到的DQN算法,爲了方便收斂使用了經驗回放。Actor-Critic是否也可以使用這個方法呢?當然可以。不
相關文章
相關標籤/搜索