Reinforcement Learning強化學習系列之四:時序差分TD

引言 前面一篇講的是蒙特卡洛的強化學習方法,蒙特卡羅強化學習算法經過考慮採樣軌跡,克服了模型未知給策略估計形成的困難,不過蒙特卡羅方法有一個缺點,就是每次須要採樣完一個軌跡以後才能更新策略。蒙特卡洛方法沒有充分利用學習任務的MDP結構,而時序差分學習方法Temporal Difference(TD)就充分利用了MDP結構,效率比MC要高,這篇文章介紹一下TD算法python Sarsa算法 Sar
相關文章
相關標籤/搜索