MC

時間 2021-02-24

原文原文鏈接

Monte-Carlo Mthod 5.1Monte-Carlo Prediction 在策略 π \pi π下，通過採樣實際交互片段，計算片段中狀態的mean return近似值函數。回報(return)： G t = T t + 1 + γ R t + 2 + . . . + γ T − 1 R T G_t=T_{t+1}+ \gamma R_{t+2}+...+\gamma^{T-1}R_