《Reinforcement Learning》讀書筆記 6：時序差分學習（TD-Learning）

時間 2021-01-13

原文原文鏈接

《Reinforcement Learning: An Introduction》讀書筆記 - 目錄先來看一個例子每天上班的路程，都是可以看作是一系列子過程的組合，如：走路去地鐵站=>地鐵1=>地鐵2=>公交，總時長是這些子過程之和。每天我們依賴之前的經驗，估計當天的時長，並更新我們的經驗。那麼如何做出更好的估計呢？如何更快地積累有效的經驗？尤其是在一個沒有適合model（回顧MDP中的

>>阅读原文<<