【筆記2-2】李宏毅深度強化學習筆記(二)Proximal Policy Optimization (PPO)

李宏毅深度強化學習- Proximal Policy Optimization Policy Gradient 術語和基本思想 Policy Gradient 從on-policy到off-policy (反覆屢次使用經驗) 術語和基本思想 PPO 算法 李宏毅深度強化學習課程 https://www.bilibili.com/video/av24724071html 李宏毅深度強化學習筆記(一)
相關文章
相關標籤/搜索