強化學習中的REINFORCE策略函數

時間 2021-01-12

原文原文鏈接

轉自：https://blog.csdn.net/Pony017/article/details/81146374 從REINFORCE到PPO，看Policy Gradient的前世今生 Policy Gradient和Q-learning可以說是model-free RL的兩大陣營。前者是off-line、on-policy的方法，後者是on-line、off-policy的方法。前者是策略迭

>>阅读原文<<