機器學習（二十八）——Monte-Carlo

時間 2020-12-30

原文原文鏈接

動態規劃（續） Value Iteration vk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′)) v k + 1 ( s ) = max a ∈ A ( R s a + γ ∑ s ′ ∈ S P s s ′ a v k ( s ′ ) ) state-value function迭代的複雜度是 O(mn2) O ( m n 2 ) ，其中m爲action的數量，n爲st

>>阅读原文<<