【完結】李宏毅深度強化學習筆記（二）Proximal Policy Optimization (PPO)

時間 2021-01-12

原文原文鏈接

李宏毅深度強化學習- Proximal Policy Optimization Policy Gradient Terms and basic ideas Policy Gradient From on-policy to off-policy ——Using the experience more than once Terms and basic ideas PPO algorithm 李宏毅