李宏毅強化學習學習筆記-policy gradient and PPO

1、強化學習policy gradient中,爲什麼需要將reward減去一個baseline? 策略梯度在進行優化的時候,使用的都是對數據進行採樣,當所有的獎勵都是正的時候,會對所有的梯度方向都鼓勵,但是是進行歸一化的,所以對那些獎勵較少的方向,起到了抑制的效果。但是由於採樣操作,當高獎勵的動作沒有sample到的時候,那些低獎勵的動作就被鼓勵執行了。
相關文章
相關標籤/搜索