強化學習基礎學習系列之求解MDP問題的policy-base方法

介紹 蒙特卡羅策略梯度 actor-critic 策略梯度 一些理解 介紹 安利一下Karpathy的這篇文章:https://zhuanlan.zhihu.com/p/27699682,不多做介紹,看了就知道好。 強化學習算法除了value-base的方法,還有另一類方法,這類方法像監督學習一樣直接去擬合策略,這一類方法叫做policy-base的方法,同樣,這裏只是討論model-free也就
相關文章
相關標籤/搜索