基於策略的強化學習(三)：Actor—Critic算法

時間 2021-01-11

標籤強化學習機器學習简体版

原文原文鏈接

Actor—Critic算法 Actor—Critic算法的名字很形象，包含一個策略函數和行爲價值函數，其中策略函數充當演員(Actor)，生成行爲與環境交互；行爲價值函數充當(Critic)，負責評價演員的表現，並指導演員的後續行爲動作。Critic 的行爲價值函數是基於策略 π θ \pi_θ πθ 的一個近似：基於此，Actor—Critic算法遵循一個近似的策略梯度進行學習：Criti

>>阅读原文<<