notes3-- 深度強化學習入門到熟練（Shusen Wang）

時間 2021-01-16

標籤 DRL 简体版

原文原文鏈接

Policy-Based RL 用神經網絡近似策略函數 π \pi π 回顧 State-Value Function Approximation 使用策略網絡 π ( a ∣ s t ; θ ) \pi(a|s_{t};\theta) π(a∣st;θ)代替策略函數 π ( a ∣ s t ) \pi(a|s_{t}) π(a∣st) 對 S S S求期望，消去 S S S，只有 θ \th

>>阅读原文<<