[強化學習]易混知識勘誤_from李宏毅P2——PPO\Off-policy\On-policy\PPO2

本文是這篇博文的注,如有需要請以其爲綱 1.On-policy/Off-policy 若agent與環境互動,則爲On-policy(此時因爲agent親身參與,所以互動時的policy和目標的policy一致);若agent看別的agent與環境互動,自己不參與互動,則爲Off-policy(此時因爲互動的和目標優化的是兩個agent,所以他們的policy可能不一致)。 兩者在採樣數據利用上的
相關文章
相關標籤/搜索