12、Eligibility Traces

文章目錄 1、The λ-return 2、TD(λ) 3、An On-line Forward View 4、True Online TD(λ)           有效跟蹤(Eligibility traces)是強化學習的基本機制之一。例如,TD(λ)算法,λ引用了有效跟蹤。         幾乎任何的時間差分(TD)方法,如Q-learning或Sarsa,都可以與有效跟蹤相結合,以獲得更
相關文章
相關標籤/搜索