深度加強學習PPO（Proximal Policy Optimization）算法源碼走讀

時間 2020-07-26

標籤深度加強學習 ppo proximal policy optimization 算法源碼走讀简体版

原文原文鏈接

原文地址：https://blog.csdn.net/jinzhuojun/article/details/80417179python OpenAI出品的baselines項目提供了一系列deep reinforcement learning（DRL，深度強化學習或深度加強學習）算法的實現。如今已經有包括DQN,DDPG,TRPO,A2C,ACER,PPO在內的近十種經典算法實現，同時它也在不斷

>>阅读原文<<