Policy Gradient and From On-policy to Off-policy

時間 2021-03-21

標籤深度學習強化學習 pytorch 简体版

原文原文鏈接

REINFORCE: Monte Carlo Policy Gradient 蒙特卡洛可以理解爲算法完成一個 episode 之後，再拿這個 episode 的數據來去 learn 一下，做一次更新。因爲我們已經拿到了一整個 episode 的數據的話，也能夠拿到每一個 step 的 reward，我們可以很方便地去計算每個 step 的未來總收益，就是我們的期望，就是我們的回報 G t G_t

>>阅读原文<<