[強化學習-2] DP-值估計和策略控制

上一篇博客講了強化學習中的幾個基本概念,其中推導的貝爾曼方程是一個很重要的部分。在上一篇博客裏也說過MRP裏的貝爾曼方程可以通過求解矩陣直接得到收斂後的state-value function,但是計算複雜度高,我們這節採用動態規劃的方式求解 值估計 值估計就是預測問題,策略估計就是給定該策略後,估計所有狀態的價值即估計狀態值函數v(s) 定義:MRP或者給定策略π的MDP,求出狀態價值函數 v(
相關文章
相關標籤/搜索