強化學習之Actor Critic

參考:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-1-actor-critic/ 一句話概括 Actor Critic 方法:結合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基於概率選
相關文章
相關標籤/搜索