強化學習實例8:蒙特卡羅法(monte carlo)

在不少實際問題中,咱們沒法獲得遊戲的全貌,也就是說,狀態轉移矩陣沒法獲知,這被稱爲「無模型」問題。python Bellman公式,能夠經過不斷迭代獲得狀態-行動值函數算法 而在無模型問題中,狀態轉移機率將沒法知曉,因而用最初的累積回報求得app 看到等號右邊的指望,咱們很天然地聯想到了蒙特卡羅法,它是一種經過隨機採樣估計指望值的方法,全過程總結以下:dom (1)讓Agent和環境交互後獲得交互
相關文章
相關標籤/搜索