強化學習(RLAI)讀書筆記第十二章資格跡(Eligibility Traces)

資格跡是強化學習算法中的一個基本機制。比如很流行的其中的指的就是資格跡的使用。基本上所有的TD算法都能夠和資格跡進行組合從而得到一個更通用的算法。資格跡把TD和MC方法統一了起來。當TD算法和資格跡進行組合使用時,得到了一組從一步TD延伸到MC算法的算法家族。一般中間部分的算法效果比兩端的好。資格跡同樣提供了一種在線continuing形式的問題上使用MC算法的實現方式。 之前第七章使用n步TD法
相關文章
相關標籤/搜索