Proximal Policy Optimization (PPO)

目錄 Policy Gradient 術語和基本思想 Policy Gradient 從on-policy到off-policy (反覆多次使用經驗) 術語和基本思想 PPO / TRPO PPO2: Policy Gradient 術語和基本思想 基本組成:    actor (即policy gradient要學習的對象, 是我們可以控制的部分)    環境 environment (給定的,
相關文章
相關標籤/搜索