李宏毅強化學習學習筆記-policy gradient and PPO

時間 2021-01-12

標籤深度學習強化學習简体版

原文原文鏈接

1、強化學習policy gradient中，爲什麼需要將reward減去一個baseline？策略梯度在進行優化的時候，使用的都是對數據進行採樣，當所有的獎勵都是正的時候，會對所有的梯度方向都鼓勵，但是是進行歸一化的，所以對那些獎勵較少的方向，起到了抑制的效果。但是由於採樣操作，當高獎勵的動作沒有sample到的時候，那些低獎勵的動作就被鼓勵執行了。

>>阅读原文<<