A thorough understanding of on-policy and off-policy in Reinforcement learning

一句話區分on-policy and off-policy: 看behaviour policy和current policy是不是同一個就OK了! 我這篇文章主要想借着理解on-policy和off-policy的過程來加深對其他RL算法的認識。因爲萬事萬物總是相互聯繫的,所以在自己探究,琢磨爲什麼有些算法是on-policy或者off-policy的過程中,對於它們的本質也有了更深的認識。 首
相關文章
相關標籤/搜索