【RL】Actor-Critic訓練技巧

時間 2021-01-12

原文原文鏈接

一廣義優勢函數估計（GAE）在VPG中，我們用的 r ( τ ) r(\tau) r(τ)的均值來指引策略的更新，這是個環境給出的「客觀」的值；而在AC算法中，我們企圖用A_{w}(s, a)來指引梯度更新，但根據算法的設計，這個所謂的A_{w}(s, a)完全是用我們的神經網絡算出來的，是「主觀的」而不是「客觀的」。如果我們算出的A_{w}(s, a)與真實值相差較遠，那麼對於訓練策略網絡就

>>阅读原文<<