加強學習Reinforcement Learning經典算法梳理3:TD方法

1 前言 在上一篇blog中,咱們分析了蒙特卡洛方法,這個方法的一個特色就是須要運行完整個episode從而得到準確的result。可是每每不少場景下要運行完整個episode是很費時間的,所以,能不能仍是沿着bellman方程的路子,估計一下result呢?而且,注意這裏,依然model free。那麼什麼方法能夠作到呢?就是TD(temporal-difference時間差分)方法。html
相關文章
相關標籤/搜索