【RL】Actor-Critic訓練技巧

一 廣義優勢函數估計(GAE) 在VPG中,我們用的 r ( τ ) r(\tau) r(τ)的均值來指引策略的更新,這是個環境給出的「客觀」的值;而在AC算法中,我們企圖用A_{w}(s, a)來指引梯度更新,但根據算法的設計,這個所謂的A_{w}(s, a)完全是用我們的神經網絡算出來的,是「主觀的」而不是「客觀的」。如果我們算出的A_{w}(s, a)與真實值相差較遠,那麼對於訓練策略網絡就
相關文章
相關標籤/搜索