強化學習(七):策略梯度

回顧 在上一節中,咱們主要是利用函數近似來將 Vπ(s) V π ( s ) 與 Qπ(s,a) Q π ( s , a ) 參數化: 而咱們的策略 π π 則是從Q值中產生的。好比咱們一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根據最大的Q值來選擇動做(action)。沒有Q值的話就沒法使用這個方法了。也就是這個策略的更新是根據Q值的變化的。那麼在本節,咱們將直接對
相關文章
相關標籤/搜索