5. 強化學習之——策略優化

課程大綱 基於策略的強化學習:前面講的都是基於價值的強化學習,這次講基於策略函數去優化的強化學習 蒙特卡羅策略梯度 如何降低策略梯度的方差 Actor-Critic:同時學習策略函數和價值函數 基於策略的強化學習基礎知識 Value-based RL 與 Policy-based RL: Policy-based RL 的優勢與劣勢: 策略的分類: (1)確定性策略 (2)概率分佈性策略  對策略
相關文章
相關標籤/搜索