Lee Hung-yi強化學習 | (2) Proximal Policy Optimization算法(PPO)

時間 2021-01-16

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

Lee Hung-yi強化學習專欄系列博客主要轉載自CSDN博主 qqqeeevvv，原專欄地址課程視頻課件地址 1. On-policy vs. Off-policy 所謂 on-policy （左圖）指我們學習的 agent（即actor）和與環境交互的 agent 是相同的，即 agent 一邊和環境互動，一邊學習；而 off-policy （右圖）指我們學習的 agent 與環境交

>>阅读原文<<