Monte Carlo(MC) Policy Evaluation 蒙特·卡羅爾策略評估

時間 2020-12-30

標籤 Monte Carlo Policy Evaluation Reinforcement Learning 简体版

原文原文鏈接

這篇博文是另一篇博文Model-Free Policy Evaluation 無模型策略評估的一個小節，因爲蒙特·卡羅爾策略評估本身就是一種無模型策略評估方法，原博文有對無模型策略評估方法的詳細概述。簡單而言，蒙特·卡羅爾策略評估是依靠在給定策略下使智能體運行多個輪次並採樣對回報取平均值近似期望來更新對價值的估計，根據大數定理，採樣的輪次越多，估計值越接近真實值。相關基礎概念如果我們不知

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。