Reinforcement Learning:Model-Free Prediction 筆記

Monte-Carlo learning First-Visit MC Policy Evaluation Every-Visit MC Policy Evaluation Temporal-Difference Learning TDlambda MDP: Monte-Carlo learning 蒙特卡洛學習。是通過樣本來判斷整體的情況,沒有MDP中的P和R,直接從episodes(需要有te
相關文章
相關標籤/搜索