深度強化學習——A3C

聯繫方式:860122112@qq.comgit 異步的優點行動者評論家算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根據異步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一種輕量級的 DRL 框架,該框架可使用異步的梯度降低法來優化網絡控制器的參數,並能夠結合多種RL算法。gith
相關文章
相關標籤/搜索