深度加強學習David Silver（七）——Policy Gradient

時間 2019-12-11

標籤深度加強學習 david silver policy gradient 简体版

原文原文鏈接

本文主要內容：html Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上節課咱們使用參數估計了價值函數和行動-價值函數，而當講到策略時，咱們只提到 ϵ \epsilon ϵ-greedy。在這節課，咱們將會直接參數化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\s

>>阅读原文<<