強化學習：DP

時間 2020-12-27

原文原文鏈接

歡迎加羣：1012878218，一起學習、交流強化學習，裏面會有關於深度學習、機器學習、強化學習的各種資料。術語動態規劃（DP）指的是一組算法，可以用來計算最佳策略，給定一個作爲馬爾可夫決策過程（MDP）的完美環境模型。經典的DP算法在強化學習中的作用有限，因爲它們都假設了一個完美的模型，並且由於它們的計算耗費巨大，但它們在理論上仍然很重要。 DP爲理解本書其餘部分介紹的方法提供了必要的基礎