Temporal Difference - 時序差分學習

這篇博客是前面一篇博客Model-Free Policy Evaluation 無模型策略評估的一個小節,因爲TD本身也是一種無模型策略評估方法。原博文有對無模型策略評估方法的詳細概述。 Temporal Difference(TD) 時序差分 「if one had to identify one idea as central and novel to reinforcement learni
相關文章
相關標籤/搜索