強化學習中的REINFORCE策略函數

轉自:https://blog.csdn.net/Pony017/article/details/81146374 從REINFORCE到PPO,看Policy Gradient的前世今生 Policy Gradient和Q-learning可以說是model-free RL的兩大陣營。前者是off-line、on-policy的方法,後者是on-line、off-policy的方法。前者是策略迭
相關文章
相關標籤/搜索