RL論文閱讀20 - MF類算法總結(VPG, TROP, PPO, DDPG, TD3, SAC)

PG類算法總結 1. On-Policy類算法 1.1 VPG:Vanilla Policy Gradient on policy 算法 可用於動作空連續或者離散動作空間 這個就是最初的PG版本。我們的目的是最大化有限的return。J代表的是無折扣的有限return。 下面的公式推導見從PG到A3C τ \tau τ就是我們的採樣序列。 A是Advantage function 可見我們需要獲得
相關文章
相關標籤/搜索