強化學習(爾) - 馬爾科夫決策過程

時間 2020-12-29

原文原文鏈接

馬爾科夫決策過程 Makov的定義下一個狀態的產生只和當前的狀態有關，即：本來直觀上講，下一個狀態的產生跟所有歷史狀態是有關的，也就是等式右邊所示。但是Markov的定義則是忽略掉歷史信息，只保留當前狀態的信息來預測下一個狀態，這就叫Markov。狀態轉移概率對於一個具體的狀態s和它的下一個狀態s’ ，它們的狀態轉移概率(就是從s轉移到s’的概率)定義爲：假如總共有n種狀態可以選擇。那麼

>>阅读原文<<