Chapter 5 Monte Carlo Methods

不像以前章節,這裏不假設有complete knowledge of the environment。    不需要完美的model,只要有experiences就行,用episodes表示,一個episode就是一個完整的從開始到結束的state、action、reward序列。蒙特卡洛方法的特點就是要使用整個序列,舉例來說就是必須在一個episode結束後得到了整個序列才能使用蒙特卡洛方法。
相關文章
相關標籤/搜索