強化學習(五):蒙特卡洛採樣方法

強化學習(五):蒙特卡洛採樣方法   在強化學習(四)中,咱們學習瞭如何使用動態規劃法求解強化學習問題,咱們還學習了策略評估和策略改進,以及廣義策略迭代(GPI),事實上,動態規劃可以很好地收斂到最優值,可是否動態規劃就是最好的呢?顯然不是。html 回顧一下動態規劃的狀態價值函數的貝爾曼方程:web v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s
相關文章
相關標籤/搜索