2020李宏毅學習筆記——66 RL Advanced Version 2.Proximal Policy Optimization

時間 2021-01-16

原文原文鏈接

Proximal Policy Optimization 術語和基本思想 On-policy: 學習到的agent以及和環境進行互動的agent是同一個agent Off-policy: 學習到的agent以及和環境進行互動的agent是不同的agent 爲什麼要引入 Off-policy: 如果我們使用 πθ 來收集數據，那麼參數 θ被更新後，我們需要重新對訓練數據進行採樣，這樣會造成巨大的時間

>>阅读原文<<