A3C的算法原理和算法流程

時間 2021-01-16

原文原文鏈接

在強化學習(十四) Actor-Critic中，我們討論了Actor-Critic的算法流程，但是由於普通的Actor-Critic算法難以收斂，需要一些其他的優化。而Asynchronous Advantage Actor-critic(以下簡稱A3C)就是其中比較好的優化算法。本文我們討論A3C的算法原理和算法流程。　　　　本文主要參考了A3C的論文，以及ICML 2016的deep RL

>>阅读原文<<