強化學習(二)A3C算法詳解,從policy gradient到Asynchronous Advantage Actor-critic

Asynchronous Advantage Actor-critic 在強化學習中,有許多經典的模型,其中一個就是A3C,全稱是Asynchronous Advantage Actor-critic。這種模型其實是從之前我們提及的最基本的policy gradient模型一步一步發展來的。最初的強化學習模型中只有一個actor,這個actor的作用是根據當前對於environment的obser
相關文章
相關標籤/搜索