Reinforcement Learning——DP

時間 2020-12-24

標籤強化學習動態規劃简体版

原文原文鏈接

Dynamic Programming 動態規劃是用來求解MDP的方法之一，動態的含義是問題具有時間或順序特性，規劃的含義是用程序來優化程序，也就是指優化策略。動態規劃算法就是兩種思想的結合，它把一個複雜的問題分割成許多小的問題，在解決了這些小問題之後原本複雜的問題就隨之迎刃而解。在增強學習中，它主要是利用value function來搜索最優策略，利用Bellman方程作爲更新規則來計算近似的期

>>阅读原文<<