強化學習系列（五）：蒙特卡羅方法（Monte Carlo)

時間 2019-12-06

標籤強化學習系列方法 monte carlo 简体版

原文原文鏈接

1、前言在強化學習系列（四）：動態規劃中，咱們介紹了採用DP (動態規劃）方法求解environment model 已知的MDP（馬爾科夫決策過程），那麼當environment model信息不全的時候，咱們會採用什麼樣的方法求解呢？蒙特卡洛方法（Monte Carlo)、時間差分（Temporal Difference，TD)、n-step Bootstrapping 均可以用來求解無模型

>>阅读原文<<