值迭代、策略迭代

時間 2021-01-12

標籤強化學習機器學習人工智能简体版

原文原文鏈接

值函數策略: 狀態s到動作a的映射： π:S→A 值函數：值函數都是對應於特定的策略的，即 Vπ 對於策略 π ，狀態s的值函數： Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π]. 也可表示爲Bellman形式，是一種迭代思想： Vπ(s)=R(s)+γ∑s′∈SPsπ(s)(s′)Vπ(s′). 其中 Psπ(s)(s′) 表示對應於策略 π 的狀態轉移概率，

>>阅读原文<<