值迭代、策略迭代

值函數 策略: 狀態s到動作a的映射: π:S→A 值函數:值函數都是對應於特定的策略的,即 Vπ 對於策略 π ,狀態s的值函數: Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π]. 也可表示爲Bellman形式,是一種迭代思想: Vπ(s)=R(s)+γ∑s′∈SPsπ(s)(s′)Vπ(s′). 其中 Psπ(s)(s′) 表示對應於策略 π 的狀態轉移概率,
相關文章
相關標籤/搜索