【深度強化學習】5. Proximal Policy Optimization

【DataWhale導讀】李宏毅老師的深度強化學習之PPO(近端策略優化)部分內容。 文章目錄 1. 概念/關鍵詞 2. from on-policy to off-policy 3. PPO/TRPO 3.1 PPO-Penalty 3.2 PPO-Clip 4. 參考 1. 概念/關鍵詞 名稱 解釋 On-Policy 學習的agent和與環境互動的agent是同一個(自己打王者) Off-P
相關文章
相關標籤/搜索