強化學習---TRPO/DPPO/PPO/PPO2

時間 2021-01-19

標籤 Reinforcement learning 简体版

原文原文鏈接

時間線： OpenAI 發表的 Trust Region Policy Optimization, Google DeepMind 看過 OpenAI 關於 TRPO後, 2017年7月7號，搶在 OpenAI 前面把 Distributed PPO給先發布了. OpenAI 還是在 2017年7月20號發表了一份拿得出手的 PPO 論文。（ppo+ppo2） Proximal Pol

>>阅读原文<<