7. 強化學習之——基於模型的強化學習

時間 2021-01-01

標籤強化學習简体版

原文原文鏈接

課程大綱 model-based RL 概要 model-based value optimization model-based policy optimization case study 基於模型的強化學習概要之前學 model-free RL 的時候（1）從經驗中利用 policy gradient 直接學習 policy （2）利用 MC 或者 TD 學習 value functio

>>阅读原文<<