強化學習(七)：策略梯度

時間 2021-01-12

標籤 Reinforcement Learning 蒙特卡羅策略梯度策略梯度(policy gradient) actor-critic 简体版

原文原文鏈接

回顧在上一節中，我們主要是利用函數近似來將 Vπ(s) V π ( s ) 與 Qπ(s,a) Q π ( s , a ) 參數化：而我們的策略 π π 則是從Q值中產生的。比如我們一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根據最大的Q值來選擇動作(action)。沒有Q值的話就無法使用這個方法了。也就是這個策略的更新是根據Q值的變化的。那麼在本節，我們將直接對

>>阅读原文<<