7. 強化學習之——基於模型的強化學習

課程大綱 model-based RL 概要 model-based value optimization model-based policy optimization case study 基於模型的強化學習概要 之前學 model-free RL 的時候 (1)從經驗中利用 policy gradient 直接學習 policy (2)利用 MC 或者 TD 學習 value functio
相關文章
相關標籤/搜索