蒙特卡洛方法

什麼時候使用蒙特卡洛方法:  蒙特卡洛方法適用於免模型的強化學習任務。(「免模型學習」對應於一類現實的強化  學習任務,在該類任務中,環境的轉移概率、獎賞函數往往很難得知,甚至很難知道環境中一共有多少狀態,因此,在該類學習任務中,學習算法不依賴於環境建模。)  爲什麼使用蒙特卡洛方法:  在免模型情形下,由於模型未知而導致無法做全概率展開,策略迭代酸中的策略無法評估,此時,只能通過在環境中執行選擇
相關文章
相關標籤/搜索