機器學習(二十八)——Monte-Carlo

動態規劃(續) Value Iteration vk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′)) v k + 1 ( s ) = max a ∈ A ( R s a + γ ∑ s ′ ∈ S P s s ′ a v k ( s ′ ) ) state-value function迭代的複雜度是 O(mn2) O ( m n 2 ) ,其中m爲action的數量,n爲st
相關文章
相關標籤/搜索