policy gradient 的理解

時間 2020-12-24

原文原文鏈接

參考：策略梯度理解及TensorFlow實現李宏毅深度強化學習筆記（二）Proximal Policy Optimization (PPO) 李宏毅，深度強化學習 DQN的缺點：在DQN中，我們通過神經網絡計算價值函數Q（s,a,w)近似表示Q(s,a)，即： Q ( s , a , w ) ≈ Q ( s , a ) Q(s,a,w) \approx Q(s,a) Q(s,a,w)≈Q(

>>阅读原文<<