Deterministic Policy Gradient (DPG) 的讀後感和幾個問題

時間 2021-01-02

標籤強化學習策略梯度 Deterministic Policy Gradient DPG 確定策略梯度简体版

原文原文鏈接

1. Policy Gradient (PG)方法的優點：相對於一般的 Value Based 方法(如估計Q(s,a)值), PG更加適合運用在連續的或者較大的Action Space(實際的機器人控制等等)，因爲隨着 Action Space的增大，Q(s,a)的規模也會相對增大，對具體的實現造成很大的困難（如DQN的輸出與Action的個數有關）。而對PG來說這種問題的影響就小多了。 2

>>阅读原文<<