【RL】6.Actor-Critic

RL-Ch6-Actor-Critic A2C:Advantage Actor-Critic A3C:Asynchronous Actor-Critic Advantage Function 我們在第四章Policy Gradient中從原始的梯度計算公式,引入baseline和時間步衰減的技巧後,得到Advantage Function,形式如下: A θ ( s t , a t ) = ∑ t
相關文章
相關標籤/搜索