[強化學習-3] 蒙特卡洛和時序差分法-預測

時間 2020-12-30

原文原文鏈接

預測就是估計值函數，上一次我們在講解值函數估計時用了DP，但是DP只能解決known的MDP，即環境已知，但是實際中很多環境都不可知，因此需要用到這次講的蒙特卡洛和時序差分蒙特卡洛(Monte Carlo) 回顧下 vπ(s)的定義 v π ( s ) 的定義 vπ(s)=Eπ(Gt|St=s) v π ( s ) = E π ( G t | S t = s ) 就是求給定狀態下所有epis

>>阅读原文<<