深度增強學習David Silver(七)——Policy Gradient

本文主要內容: Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上節課我們使用參數估計了價值函數和行動-價值函數,而當講到策略時,我們只提到 ϵ \epsilon ϵ-greedy。在這節課,我們將會直接參數化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\sf{P}
相關文章
相關標籤/搜索