【RL】策略梯度的訓練技巧

一 r ( τ ) r(\tau) r(τ)的baseline 毫無疑問, r ( τ ) r(\tau) r(τ)代表着軌道 τ \tau τ的好壞。按照我們推導出來的policy gradient的式子, r ( τ ) r(\tau) r(τ)大於0的時候,訓練會使得這個軌道上涉及的所有 π w ( a i ∣ s i ) \pi_{w}\left(a_{i} \mid s_{i}\righ
相關文章
相關標籤/搜索