強化學習(RLAI)讀書筆記第四章動態規劃

第四章:動態規劃 動態規劃是指一類在MDP下對環境有完全建模的計算最優策略的算法。經典的DP算法在強化學習中應用有限,不僅是因爲需要對環境進行完全建模,而且還需要很多的計算資源。但是這個算法在理論上依然很重要。實際上,書中後面章節的所有算法都可以看成想要使用更少的計算資源而且不需要對環境完全建模的儘可能達到DP的效果的嘗試。 一般我們假設環境是有限狀態MDP。儘管動態規劃也可以應用到連續狀態和連續
相關文章
相關標籤/搜索