Monte Carlo(MC) Policy Evaluation 蒙特·卡羅爾策略評估

這篇博文是另一篇博文Model-Free Policy Evaluation 無模型策略評估的一個小節,因爲 蒙特·卡羅爾策略評估本身就是一種無模型策略評估方法,原博文有對無模型策略評估方法的詳細概述。 簡單而言, 蒙特·卡羅爾策略評估是依靠在給定策略下使智能體運行多個輪次並採樣對回報取平均值近似期望來更新對價值的估計,根據大數定理,採樣的輪次越多,估計值越接近真實值。 相關基礎概念 如果我們不知
相關文章
相關標籤/搜索