強化學習系列(十二):Eligibility Traces

一、前言 Eligibility Traces是強化學習的基本原理之一。例如TD( λ λ )算法,( λ λ )表示eligibility traces的使用情況。幾乎所有TD方法,如 Q-Learning或Sarsa,都可以和eligibility traces結合起來生成更高效通用的方法。 Eligibility Traces可以用於泛化TD和MC(蒙特卡羅)方法。當用eligibility
相關文章
相關標籤/搜索