Lecture4: Model-Free Prediction

文章目錄 Introduction Monte-Carlo Learning Monte-Carlo Policy Evaluation 首次訪問蒙特卡洛策略評估 每次訪問蒙特卡洛策略評估 示例:二十一點遊戲 Blackjack Example 累進更新平均值 Incremental Mean 蒙特卡洛累進更新 Temporal-Difference Learning 示例--駕車返回家 MC 和
相關文章
相關標籤/搜索