強化學習:DP

歡迎加羣:1012878218,一起學習、交流強化學習,裏面會有關於深度學習、機器學習、強化學習的各種資料 。 術語動態規劃(DP)指的是一組算法,可以用來計算最佳策略,給定一個作爲馬爾可夫決策過程(MDP)的完美環境模型。 經典的DP算法在強化學習中的作用有限,因爲它們都假設了一個完美的模型,並且由於它們的計算耗費巨大,但它們在理論上仍然很重要。 DP爲理解本書其餘部分介紹的方法提供了必要的基礎
相關文章
相關標籤/搜索