加強學習Reinforcement Learning經典算法梳理3：TD方法

時間 2019-12-06

標籤加強學習 reinforcement learning 經典算法梳理方法简体版

原文原文鏈接

1 前言在上一篇blog中，咱們分析了蒙特卡洛方法，這個方法的一個特色就是須要運行完整個episode從而得到準確的result。可是每每不少場景下要運行完整個episode是很費時間的，所以，能不能仍是沿着bellman方程的路子，估計一下result呢？而且，注意這裏，依然model free。那麼什麼方法能夠作到呢？就是TD（temporal-difference時間差分）方法。html

>>阅读原文<<