David silver強化學習課程第七課策略梯度

時間 2020-12-23

標籤人工智能強化學習简体版

原文原文鏈接

第七課策略梯度快開學了比較懶，這兩天督促一下自己把後面的筆記都整理一下。。。強化學習方法分爲兩種：基於策略的方法和基於價值的方法。前面課程中提到的方法都是基於價值的方法，包括策略迭代、值迭代和值函數近似。基於價值的方法是根據價值函數來制定策略，這是一種間接優化策略的方式。那麼我們可不可以直接得到策略？類似於值函數近似，我們用參數擬合策略，直接得到策略，這就是本課要講的基於策略的方法—策略梯度

>>阅读原文<<