強化學習（二）A3C算法詳解，從policy gradient到Asynchronous Advantage Actor-critic

時間 2021-01-02

原文原文鏈接

Asynchronous Advantage Actor-critic 在強化學習中，有許多經典的模型，其中一個就是A3C，全稱是Asynchronous Advantage Actor-critic。這種模型其實是從之前我們提及的最基本的policy gradient模型一步一步發展來的。最初的強化學習模型中只有一個actor，這個actor的作用是根據當前對於environment的obser

>>阅读原文<<