Reinforcement Learning：Model-Free Prediction 筆記

時間 2021-01-11

標籤強化學習蒙特卡洛時序差分 UCL 简体版

原文原文鏈接

Monte-Carlo learning First-Visit MC Policy Evaluation Every-Visit MC Policy Evaluation Temporal-Difference Learning TDlambda MDP: Monte-Carlo learning 蒙特卡洛學習。是通過樣本來判斷整體的情況，沒有MDP中的P和R，直接從episodes（需要有te

>>阅读原文<<