基於策略的強化學習(三):Actor—Critic算法

Actor—Critic算法 Actor—Critic算法的名字很形象,包含一個策略函數和行爲價值函數,其中策略函數充當演員(Actor),生成行爲與環境交互;行爲價值函數充當(Critic),負責評價演員的表現,並指導演員的後續行爲動作。Critic 的行爲價值函數是基於策略 π θ \pi_θ πθ​ 的一個近似: 基於此,Actor—Critic算法遵循一個近似的策略梯度進行學習:Criti
相關文章
相關標籤/搜索