Lee Hung-yi強化學習 | (2) Proximal Policy Optimization算法(PPO)

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv,原專欄地址 課程視頻 課件地址 1. On-policy vs. Off-policy 所謂 on-policy (左圖)指我們學習的 agent(即actor) 和與環境交互的 agent 是相同的,即 agent 一邊和環境互動,一邊學習; 而 off-policy (右圖)指我們學習的 agent 與環境交
相關文章
相關標籤/搜索