強化學習---TRPO/DPPO/PPO/PPO2

時間線: OpenAI 發表的 Trust Region Policy Optimization,  Google DeepMind 看過 OpenAI 關於 TRPO後, 2017年7月7號,搶在 OpenAI 前面 把 Distributed PPO給先發布了.  OpenAI 還是在 2017年7月20號 發表了一份拿得出手的 PPO 論文 。(ppo+ppo2)  Proximal Pol
相關文章
相關標籤/搜索