強化學習(七)：策略梯度

時間 2019-12-07

標籤強化學習策略梯度简体版

原文原文鏈接

回顧在上一節中，咱們主要是利用函數近似來將 Vπ(s) V π ( s ) 與 Qπ(s,a) Q π ( s , a ) 參數化：而咱們的策略 π π 則是從Q值中產生的。好比咱們一直使用的 ϵ−greedy ϵ − g r e e d y 探索方法就是根據最大的Q值來選擇動做(action)。沒有Q值的話就沒法使用這個方法了。也就是這個策略的更新是根據Q值的變化的。那麼在本節，咱們將直接對

>>阅读原文<<