notes3-- 深度強化學習入門到熟練(Shusen Wang)

Policy-Based RL 用神經網絡近似策略函數 π \pi π 回顧 State-Value Function Approximation 使用策略網絡 π ( a ∣ s t ; θ ) \pi(a|s_{t};\theta) π(a∣st​;θ)代替策略函數 π ( a ∣ s t ) \pi(a|s_{t}) π(a∣st​) 對 S S S求期望,消去 S S S,只有 θ \th
相關文章
相關標籤/搜索