[強化學習-3] 蒙特卡洛和時序差分法-預測

預測就是估計值函數,上一次我們在講解值函數估計時用了DP,但是DP只能解決known的MDP,即環境已知,但是實際中很多環境都不可知,因此需要用到這次講的蒙特卡洛和時序差分 蒙特卡洛(Monte Carlo) 回顧下 vπ(s)的定義 v π ( s ) 的 定 義 vπ(s)=Eπ(Gt|St=s) v π ( s ) = E π ( G t | S t = s ) 就是求給定狀態下所有epis
相關文章
相關標籤/搜索