強化學習——蒙特卡洛方法

時間 2021-01-13

原文原文鏈接

學習目標理解Prediction和Control的差別；理解什麼是first-visit和every-visit；理解什麼是on-policy和off-policy；理解蒙特卡洛方法的Prediction和Control問題； Prediction和Control 其實這兩個名詞在總結動態規劃方法的文章中也提到過了，但是沒有細說，這裏再簡單的說明一下。預測（Prediction）和控制（C

>>阅读原文<<