深度強化學習——A3C

時間 2021-01-16

原文原文鏈接

聯繫方式：[email protected] 異步的優勢行動者評論家算法（Asynchronous Advantage Actor-Critic，A3C）是Mnih等人根據異步強化學習（Asynchronous Reinforcement Learning， ARL）的思想，提出的一種輕量級的 DRL 框架，該框架可以使用異步的梯度下降法來優化網絡控制器的參數，並可以結合多種RL算法。一、問題

>>阅读原文<<