【RL】6.Actor-Critic

時間 2021-06-12

標籤強化學習_BW 強化學習简体版

原文原文鏈接

RL-Ch6-Actor-Critic A2C：Advantage Actor-Critic A3C：Asynchronous Actor-Critic Advantage Function 我們在第四章Policy Gradient中從原始的梯度計算公式，引入baseline和時間步衰減的技巧後，得到Advantage Function，形式如下： A θ ( s t , a t ) = ∑ t

>>阅读原文<<