Policy Gradient and From On-policy to Off-policy

REINFORCE: Monte Carlo Policy Gradient 蒙特卡洛可以理解爲算法完成一個 episode 之後,再拿這個 episode 的數據來去 learn 一下,做一次更新。因爲我們已經拿到了一整個 episode 的數據的話,也能夠拿到每一個 step 的 reward,我們可以很方便地去計算每個 step 的未來總收益,就是我們的期望,就是我們的回報 G t G_t
相關文章
相關標籤/搜索