強化學習系列(五):蒙特卡羅方法(Monte Carlo)

1、前言 在強化學習系列(四):動態規劃中,咱們介紹了採用DP (動態規劃)方法求解environment model 已知的MDP(馬爾科夫決策過程),那麼當environment model信息不全的時候,咱們會採用什麼樣的方法求解呢?蒙特卡洛方法(Monte Carlo)、時間差分(Temporal Difference,TD)、n-step Bootstrapping 均可以用來求解無模型
相關文章
相關標籤/搜索