【RL】策略梯度（VPG）與Actor-critic的思想與推導

時間 2020-12-30

標籤 IL&IRL&RL Policy Gradient Actor-Critic 简体版

原文原文鏈接

一 RL學習什麼動作值函數（Q函數）。以Q-Learning、DQN爲代表，這個系列的算法學習最優動作值函數 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a) 的近似函數 Q θ ( s , a ) Q_\theta(s,a) Qθ(s,a) 。 Q-learning 智能體的動作由下面的式子給出： a ( s ) = arg ⁡ max ⁡ a Q θ ( s , a

>>阅读原文<<