《Reinforcement Learning》 讀書筆記 6:時序差分學習(TD-Learning)

《Reinforcement Learning: An Introduction》 讀書筆記 - 目錄 先來看一個例子 天天上班的路程,都是能夠看做是一系列子過程的組合,如:走路去地鐵站=>地鐵1=>地鐵2=>公交,總時長是這些子過程之和。天天咱們依賴以前的經驗,估計當天的時長,並更新咱們的經驗。 那麼如何作出更好的估計呢?如何更快地積累有效的經驗? 尤爲是在一個沒有適合model(回顧MDP中的
相關文章
相關標籤/搜索