【RL】策略梯度的訓練技巧

時間 2020-12-30

標籤 IL&IRL&RL 策略梯度 VPG訓練简体版

原文原文鏈接

一 r ( τ ) r(\tau) r(τ)的baseline 毫無疑問， r ( τ ) r(\tau) r(τ)代表着軌道 τ \tau τ的好壞。按照我們推導出來的policy gradient的式子， r ( τ ) r(\tau) r(τ)大於0的時候，訓練會使得這個軌道上涉及的所有 π w ( a i ∣ s i ) \pi_{w}\left(a_{i} \mid s_{i}\righ

>>阅读原文<<