時序差分算法(Temporal-Difference Learning)

時間 2019-12-07

標籤時序差分算法 temporal difference learning 简体版

原文原文鏈接

概述時序差分算法是一種無模型的強化學習算法。它繼承了動態規劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo Methods)的優勢，從而對狀態值(state value)和策略(optimal policy)進行預測。從本質上來講，時序差分算法和動態規劃同樣，是一種bootstrapping的算法。同時，也和蒙特卡羅方法同樣，是一種無模型的強化學習算法，其原理也

>>阅读原文<<