Reinforcement Learning——DP

Dynamic Programming 動態規劃是用來求解MDP的方法之一,動態的含義是問題具有時間或順序特性,規劃的含義是用程序來優化程序,也就是指優化策略。動態規劃算法就是兩種思想的結合,它把一個複雜的問題分割成許多小的問題,在解決了這些小問題之後原本複雜的問題就隨之迎刃而解。在增強學習中,它主要是利用value function來搜索最優策略,利用Bellman方程作爲更新規則來計算近似的期
相關文章
相關標籤/搜索