[Reinforcement Learning] Policy Gradient Methods

[Reinforcement Learning] Policy Gradient Methods ​ 通過機器學習的方法我們一旦近似了價值函數或者是動作價值函數就可以通過一些策略進行控制,比如 ϵ-greedy。 ​ 那麼我們簡單回顧下 RL 的學習目標:通過 agent 與環境進行交互,獲取累計回報最大化。既然我們最終要學習如何與環境交互的策略,那麼我們可以直接學習策略嗎,而之前先近似價值函數,
相關文章
相關標籤/搜索