強化學習系列(六):時間差分算法(Temporal-Difference Learning)

一、前言 在強化學習系列(五):蒙特卡羅方法(Monte Carlo)中,我們提到了求解環境模型未知MDP的方法——Monte Carlo,但該方法是每個episode 更新一次(episode-by-episode)。本章介紹一種單步更新的求解環境模型未知MDP的方法——Temporal-Difference Learning(TD)。TD(0)算法結合了DP 和Monte Carlo算法的優點
相關文章
相關標籤/搜索