增量式離策略每次拜訪蒙特卡洛評價算法算法
網絡課程上看到的內容:網絡
無限探索下的極限貪婪 (Greedy in the Limit with Infinite Exploration (GLIE))spa
算法1是同策略, 算法2 是異策略blog
====================================================================== it
主要感受到神奇的就是這個算法2 , 增量式離策略每次拜訪蒙特卡洛評價方法io
最看不太懂的,也是核心的步驟以下:方法
非常懷疑這個算法的正確性,因爲沒有找到原始出處就先如此了。im
=========================d3