【強化學習】入門學習

時間 2021-01-14

標籤 pytorch 強化學習简体版

原文原文鏈接

馬爾科夫決策過程(Markov Decision Process）MDP 假設狀態s下采取動作a,轉到下一個狀態s′的概率，表示爲 P s s ′ a P_{ss'}^a Pss′a 如果按照真實的環境轉化過程看，轉化到下一個狀態s′的概率既與上一個狀態s有關，還與上上個狀態，以及上上上個狀態有關。這一會導致我們的環境轉化模型非常複雜，複雜到難以建模。因此我們需要對強化學習的環境轉化模型進行簡化

>>阅读原文<<