蒙特卡洛方法

時間 2020-12-30

原文原文鏈接

什麼時候使用蒙特卡洛方法：蒙特卡洛方法適用於免模型的強化學習任務。（「免模型學習」對應於一類現實的強化學習任務，在該類任務中，環境的轉移概率、獎賞函數往往很難得知，甚至很難知道環境中一共有多少狀態，因此，在該類學習任務中，學習算法不依賴於環境建模。）爲什麼使用蒙特卡洛方法：在免模型情形下，由於模型未知而導致無法做全概率展開，策略迭代酸中的策略無法評估，此時，只能通過在環境中執行選擇

>>阅读原文<<

相關文章

相關標籤/搜索

蒙特卡洛法

類-特殊方法

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<