MC

Monte-Carlo Mthod 5.1Monte-Carlo Prediction 在策略 π \pi π下,通過採樣實際交互片段,計算片段中狀態的mean return近似值函數。 回報(return): G t = T t + 1 + γ R t + 2 + . . . + γ T − 1 R T G_t=T_{t+1}+ \gamma R_{t+2}+...+\gamma^{T-1}R_
本站公眾號
   歡迎關注本站公眾號,獲取更多信息