【RL】Vanilla Policy Gradient(VPG)

policy gradient的基本思想,是把總的獎勵表示爲策略的函數,然後對這個函數做優化。在這一章中,我們將詳細地講解這個函數具體的形式是怎麼樣的、如何求出策略梯度,理解policy gradient這個算法的基本框架。 關於MDP中動作與狀態是否是連續變量,一共有四種不同的組合。其中,狀態是有限分類變量的情況是不適合採用神經網絡的,所以在這裏不予討論。在本章中,主要要考慮的情況是狀態 s s
相關文章
相關標籤/搜索