強化學習2 基於蒙特卡羅的強化學習

時間 2021-01-04

原文原文鏈接

「強化學習的精髓之一，就是解決無模型的馬爾科夫決策問題。」——《深入淺出強化學習》第四章蒙特卡羅方法：在無模型（狀態轉移概率未知）的強化學習中，隨機地從狀態出發，經過許多次試驗，最終到達終止狀態，如圖（蒙特卡羅中的經驗）：利用蒙特卡羅方法求狀態處的值函數時，又可以分爲第一次訪問蒙特卡羅方法和每次訪問蒙特卡羅方法。第一次訪問蒙特卡羅方法是指，在計算狀態s處值函數時，只利用每次試驗中第一次訪問到

>>阅读原文<<