機器學習(三十五)——Actor-Critic, Integrating Learning and Planning(1)

Actor-Critic 概述 MC策略梯度方法使用了收獲作爲狀態價值的估計,它雖然是無偏的,但是噪聲卻比較大,也就是變異性(方差)較高。如果我們能夠相對準確地估計狀態價值,用它來指導策略更新,那麼是不是會有更好的學習效果呢?這就是Actor-Critic策略梯度的主要思想。 Actor-Critic的字面意思是「演員-評論」,相當於演員在演戲的同時,有評論家指點,繼而演員演得越來越好。即使用Cr
相關文章
相關標籤/搜索