基於模型的動態規劃方法理論——bootstrapping算法(自舉算法)

強化學習分類 bootstrapping算法(自舉算法) 直接上公式,前面的推導過程就不粘了,跟馬爾可夫那塊差不多。 v π ( s ) = ∑ a ∈   A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_
相關文章
相關標籤/搜索