【強化學習】入門學習

馬爾科夫決策過程(Markov Decision Process)MDP 假設狀態s下采取動作a,轉到下一個狀態s′的概率,表示爲 P s s ′ a P_{ss'}^a Pss′a​ 如果按照真實的環境轉化過程看,轉化到下一個狀態s′的概率既與上一個狀態s有關,還與上上個狀態,以及上上上個狀態有關。這一會導致我們的環境轉化模型非常複雜,複雜到難以建模。因此我們需要對強化學習的環境轉化模型進行簡化
相關文章
相關標籤/搜索