強化學習(七):策略梯度

回顧 在上一節中,我們主要是利用函數近似來將 Vπ(s) V π ( s ) 與 Qπ(s,a) Q π ( s , a ) 參數化: 而我們的策略 π π 則是從Q值中產生的。比如我們一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根據最大的Q值來選擇動作(action)。沒有Q值的話就無法使用這個方法了。也就是這個策略的更新是根據Q值的變化的。那麼在本節,我們將直接對
相關文章
相關標籤/搜索