David silver強化學習課程第七課 策略梯度

第七課 策略梯度 快開學了比較懶,這兩天督促一下自己把後面的筆記都整理一下。。。 強化學習方法分爲兩種:基於策略的方法和基於價值的方法。前面課程中提到的方法都是基於價值的方法,包括策略迭代、值迭代和值函數近似。基於價值的方法是根據價值函數來制定策略,這是一種間接優化策略的方式。那麼我們可不可以直接得到策略?類似於值函數近似,我們用參數擬合策略,直接得到策略,這就是本課要講的基於策略的方法—策略梯度
相關文章
相關標籤/搜索