深度強化學習——A3C

聯繫方式:[email protected] 異步的優勢行動者評論家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根據異步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一種輕量級的 DRL 框架,該框架可以使用異步的梯度下降法來優化網絡控制器的參數,並可以結合多種RL算法。 一、問題
相關文章
相關標籤/搜索