2020李宏毅學習筆記——66 RL Advanced Version 2.Proximal Policy Optimization

Proximal Policy Optimization 術語和基本思想 On-policy: 學習到的agent以及和環境進行互動的agent是同一個agent Off-policy: 學習到的agent以及和環境進行互動的agent是不同的agent 爲什麼要引入 Off-policy: 如果我們使用 πθ 來收集數據,那麼參數 θ被更新後,我們需要重新對訓練數據進行採樣,這樣會造成巨大的時間
相關文章
相關標籤/搜索