RL論文閱讀20 - MF類算法總結(VPG, TROP, PPO, DDPG, TD3, SAC)

時間 2021-01-19

標籤強化學習RL 简体版

原文原文鏈接

PG類算法總結 1. On-Policy類算法 1.1 VPG：Vanilla Policy Gradient on policy 算法可用於動作空連續或者離散動作空間這個就是最初的PG版本。我們的目的是最大化有限的return。J代表的是無折扣的有限return。下面的公式推導見從PG到A3C τ \tau τ就是我們的採樣序列。 A是Advantage function 可見我們需要獲得

>>阅读原文<<