Reinforcement Learning:Policy Gradient

Introduction Finite Difference Policy Gradient Monte-Carlo Policy Gradient likelihood ratios Actor-Critic Policy Gradient Introduction 上一節說的是value function approximation,使用的是函數擬合。這一節說的就是採用概率的方法來表示:這一節
相關文章
相關標籤/搜索