強化學習實例8：蒙特卡羅法（monte carlo）

時間 2019-12-04

標籤強化學習實例 monte carlo 简体版

原文原文鏈接

在不少實際問題中，咱們沒法獲得遊戲的全貌，也就是說，狀態轉移矩陣沒法獲知，這被稱爲「無模型」問題。python Bellman公式，能夠經過不斷迭代獲得狀態-行動值函數算法而在無模型問題中，狀態轉移機率將沒法知曉，因而用最初的累積回報求得app 看到等號右邊的指望，咱們很天然地聯想到了蒙特卡羅法，它是一種經過隨機採樣估計指望值的方法，全過程總結以下：dom （1）讓Agent和環境交互後獲得交互

>>阅读原文<<