A3C的算法原理和算法流程

在強化學習(十四) Actor-Critic中,我們討論了Actor-Critic的算法流程,但是由於普通的Actor-Critic算法難以收斂,需要一些其他的優化。而Asynchronous Advantage Actor-critic(以下簡稱A3C)就是其中比較好的優化算法。本文我們討論A3C的算法原理和算法流程。     本文主要參考了A3C的論文,以及ICML 2016的deep RL
相關文章
相關標籤/搜索