《Reinforcement Learning》 讀書筆記 6:時序差分學習(TD-Learning)

《Reinforcement Learning: An Introduction》 讀書筆記 - 目錄 先來看一個例子 每天上班的路程,都是可以看作是一系列子過程的組合,如:走路去地鐵站=>地鐵1=>地鐵2=>公交,總時長是這些子過程之和。每天我們依賴之前的經驗,估計當天的時長,並更新我們的經驗。 那麼如何做出更好的估計呢?如何更快地積累有效的經驗? 尤其是在一個沒有適合model(回顧MDP中的
相關文章
相關標籤/搜索