Reinforcement Learning強化學習系列之四：時序差分TD

時間 2019-12-09

標籤 reinforcement learning 強化學習系列之四時序差分简体版

原文原文鏈接

引言前面一篇講的是蒙特卡洛的強化學習方法，蒙特卡羅強化學習算法經過考慮採樣軌跡，克服了模型未知給策略估計形成的困難，不過蒙特卡羅方法有一個缺點，就是每次須要採樣完一個軌跡以後才能更新策略。蒙特卡洛方法沒有充分利用學習任務的MDP結構，而時序差分學習方法Temporal Difference（TD）就充分利用了MDP結構，效率比MC要高，這篇文章介紹一下TD算法python Sarsa算法 Sar

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。