強化學習2 基於蒙特卡羅的強化學習

「強化學習的精髓之一,就是解決無模型的馬爾科夫決策問題。」——《深入淺出強化學習》第四章 蒙特卡羅方法:在無模型(狀態轉移概率未知)的強化學習中,隨機地從狀態出發,經過許多次試驗,最終到達終止狀態,如圖(蒙特卡羅中的經驗): 利用蒙特卡羅方法求狀態處的值函數時,又可以分爲第一次訪問蒙特卡羅方法和每次訪問蒙特卡羅方法。 第一次訪問蒙特卡羅方法是指,在計算狀態s處值函數時,只利用每次試驗中第一次訪問到
相關文章
相關標籤/搜索