5. 強化學習之——策略優化

時間 2021-01-14

標籤強化學習简体版

原文原文鏈接

課程大綱基於策略的強化學習：前面講的都是基於價值的強化學習，這次講基於策略函數去優化的強化學習蒙特卡羅策略梯度如何降低策略梯度的方差 Actor-Critic：同時學習策略函數和價值函數基於策略的強化學習基礎知識 Value-based RL 與 Policy-based RL： Policy-based RL 的優勢與劣勢：策略的分類：（1）確定性策略（2）概率分佈性策略對策略

>>阅读原文<<