強化學習（五）：蒙特卡洛採樣方法

時間 2020-07-20

標籤強化學習蒙特卡洛採樣方法简体版

原文原文鏈接

強化學習（五）：蒙特卡洛採樣方法在強化學習（四）中，咱們學習瞭如何使用動態規劃法求解強化學習問題，咱們還學習了策略評估和策略改進，以及廣義策略迭代（GPI），事實上，動態規劃可以很好地收斂到最優值，可是否動態規劃就是最好的呢？顯然不是。html 回顧一下動態規劃的狀態價值函數的貝爾曼方程：web v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s

>>阅读原文<<