強化學習基礎學習系列之求解MDP問題的policy-base方法

時間 2020-12-29

原文原文鏈接

介紹蒙特卡羅策略梯度 actor-critic 策略梯度一些理解介紹安利一下Karpathy的這篇文章：https://zhuanlan.zhihu.com/p/27699682，不多做介紹，看了就知道好。強化學習算法除了value-base的方法，還有另一類方法，這類方法像監督學習一樣直接去擬合策略，這一類方法叫做policy-base的方法，同樣，這裏只是討論model-free也就

>>阅读原文<<