《Reinforcement Learning》讀書筆記 6：時序差分學習（TD-Learning）

時間 2019-12-13

標籤 reinforcement learning 讀書筆記時序差分學習简体版

原文原文鏈接

《Reinforcement Learning: An Introduction》讀書筆記 - 目錄先來看一個例子天天上班的路程，都是能夠看做是一系列子過程的組合，如：走路去地鐵站=>地鐵1=>地鐵2=>公交，總時長是這些子過程之和。天天咱們依賴以前的經驗，估計當天的時長，並更新咱們的經驗。那麼如何作出更好的估計呢？如何更快地積累有效的經驗？尤爲是在一個沒有適合model（回顧MDP中的

>>阅读原文<<