Policy Gradient Methods in Reinforcement Learning

時間 2020-12-20

標籤機器學習強化學習策略梯度简体版

原文原文鏈接

Objective Function 不同於value-based methods，policy-based methods的目標是：對於給定的policy：其中θ爲參數，以求找到使得policy最好的θ 那麼如何衡量一個policy π的好壞呢？根據David Silver: 我們可以使用average value： (1) 或每個時間步得到的average reward： (2) 來衡量

>>阅读原文<<