時序差分算法(Temporal-Difference Learning)

概述 時序差分算法是一種無模型的強化學習算法。它繼承了動態規劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo Methods)的優勢,從而對狀態值(state value)和策略(optimal policy)進行預測。從本質上來講,時序差分算法和動態規劃同樣,是一種bootstrapping的算法。同時,也和蒙特卡羅方法同樣,是一種無模型的強化學習算法,其原理也
相關文章
相關標籤/搜索