增量式離策略每次拜訪蒙特卡洛評價算法

增量式離策略每次拜訪蒙特卡洛評價算法算法

 

 

 

網絡課程上看到的內容:網絡

 

 

 

無限探索下的極限貪婪 (Greedy in the Limit with Infinite Exploration (GLIE))spa

 

 

算法1是同策略,   算法2 是異策略blog

 

 

 

 

 

 

 

====================================================================== it

 

 

 

 

 

 

 

 

 

主要感受到神奇的就是這個算法2 ,   增量式離策略每次拜訪蒙特卡洛評價方法io

 

 

 

最看不太懂的,也是核心的步驟以下:方法

 

 

非常懷疑這個算法的正確性,因爲沒有找到原始出處就先如此了。im

 

 

 

 

 

=========================d3

相關文章
相關標籤/搜索