【筆記2-2】李宏毅深度強化學習筆記（二）Proximal Policy Optimization (PPO)

時間 2020-06-10

標籤筆記2-2 深度強化學習筆記 proximal policy optimization ppo 简体版

原文原文鏈接

李宏毅深度強化學習- Proximal Policy Optimization Policy Gradient 術語和基本思想 Policy Gradient 從on-policy到off-policy （反覆屢次使用經驗）術語和基本思想 PPO 算法李宏毅深度強化學習課程 https://www.bilibili.com/video/av24724071html 李宏毅深度強化學習筆記（一）

>>阅读原文<<