【RL】策略梯度(VPG)與Actor-critic的思想與推導

一 RL學習什麼 動作值函數(Q函數)。 以Q-Learning、DQN爲代表,這個系列的算法學習最優動作值函數 Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a) 的近似函數 Q θ ( s , a ) Q_\theta(s,a) Qθ​(s,a) 。 Q-learning 智能體的動作由下面的式子給出: a ( s ) = arg ⁡   max ⁡ a   Q θ ( s , a
相關文章
相關標籤/搜索