Policy Gradient Methods in Reinforcement Learning

Objective Function 不同於value-based methods,policy-based methods的目標是: 對於給定的policy:  其中θ爲參數,以求找到使得policy最好的θ 那麼如何衡量一個policy π的好壞呢?根據David Silver: 我們可以使用average value: (1) 或每個時間步得到的average reward: (2) 來衡量
相關文章
相關標籤/搜索