深度增強學習David Silver（七）——Policy Gradient

時間 2021-01-12

原文原文鏈接

本文主要內容： Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上節課我們使用參數估計了價值函數和行動-價值函數，而當講到策略時，我們只提到 ϵ \epsilon ϵ-greedy。在這節課，我們將會直接參數化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\sf{P}

>>阅读原文<<