[強化學習-2] DP-值估計和策略控制

時間 2021-01-08

原文原文鏈接

上一篇博客講了強化學習中的幾個基本概念，其中推導的貝爾曼方程是一個很重要的部分。在上一篇博客裏也說過MRP裏的貝爾曼方程可以通過求解矩陣直接得到收斂後的state-value function，但是計算複雜度高，我們這節採用動態規劃的方式求解值估計值估計就是預測問題，策略估計就是給定該策略後，估計所有狀態的價值即估計狀態值函數v(s) 定義：MRP或者給定策略π的MDP，求出狀態價值函數 v(

>>阅读原文<<