強化學習基礎學習系列之求解MDP問題的value-base方法

介紹 動態規劃 策略迭代 值迭代 收斂性 MC-TD 估計 MC TD 更新均值 MC與TD的比較 TDlamda MC-TD 控制 函數近似 介紹 在強化學習基礎學習系列之MDP裏提到了幾個重要的點,對於任意一個MDP:(1)都存在一個確定性的最優策略;(2)在這個確定性的最優策略上得到的狀態價值函數和動作價值函數都是最優的;(3)通過最優的動作價值函數反過來也可以最優的策略。 強化學習的算法可
相關文章
相關標籤/搜索