強化學習基礎學習系列之求解MDP問題的value-base方法

時間 2020-12-29

原文原文鏈接

介紹動態規劃策略迭代值迭代收斂性 MC-TD 估計 MC TD 更新均值 MC與TD的比較 TDlamda MC-TD 控制函數近似介紹在強化學習基礎學習系列之MDP裏提到了幾個重要的點，對於任意一個MDP：（1）都存在一個確定性的最優策略;（2）在這個確定性的最優策略上得到的狀態價值函數和動作價值函數都是最優的;（3）通過最優的動作價值函數反過來也可以最優的策略。強化學習的算法可

>>阅读原文<<