Deterministic Policy Gradient (DPG) 的讀後感和幾個問題

1. Policy Gradient (PG)方法的優點:  相對於一般的 Value Based 方法(如估計Q(s,a)值), PG更加適合運用在連續的或者較大的Action Space(實際的機器人控制等等),因爲隨着 Action Space的增大,Q(s,a)的規模也會相對增大,對具體的實現造成很大的困難(如DQN的輸出與Action的個數有關)。而對PG來說這種問題的影響就小多了。 2
相關文章
相關標籤/搜索