【深度強化學習】5. Proximal Policy Optimization

時間 2021-07-13

原文原文鏈接

【DataWhale導讀】李宏毅老師的深度強化學習之PPO（近端策略優化）部分內容。文章目錄 1. 概念/關鍵詞 2. from on-policy to off-policy 3. PPO/TRPO 3.1 PPO-Penalty 3.2 PPO-Clip 4. 參考 1. 概念/關鍵詞名稱解釋 On-Policy 學習的agent和與環境互動的agent是同一個（自己打王者） Off-P

>>阅读原文<<