強化學習——蒙特卡洛方法

學習目標 理解Prediction和Control的差別; 理解什麼是first-visit和every-visit; 理解什麼是on-policy和off-policy; 理解蒙特卡洛方法的Prediction和Control問題; Prediction和Control 其實這兩個名詞在總結動態規劃方法的文章中也提到過了,但是沒有細說,這裏再簡單的說明一下。預測(Prediction)和控制(C
相關文章
相關標籤/搜索