深度強化學習——A3C

時間 2020-07-26

標籤深度強化學習 a3c 欄目 C&C++ 简体版

原文原文鏈接

聯繫方式：860122112@qq.comgit 異步的優點行動者評論家算法（Asynchronous Advantage Actor-Critic，A3C）是Mnih等人根據異步強化學習（Asynchronous Reinforcement Learning， ARL）的思想，提出的一種輕量級的 DRL 框架，該框架可使用異步的梯度降低法來優化網絡控制器的參數，並能夠結合多種RL算法。gith

>>阅读原文<<