強化學習(爾) - 馬爾科夫決策過程

馬爾科夫決策過程 Makov的定義 下一個狀態的產生只和當前的狀態有關,即: 本來直觀上講,下一個狀態的產生跟所有歷史狀態是有關的,也就是等式右邊所示。但是Markov的定義則是忽略掉歷史信息,只保留當前狀態的信息來預測下一個狀態,這就叫Markov。 狀態轉移概率 對於一個具體的狀態s和它的下一個狀態s’ ,它們的狀態轉移概率(就是從s轉移到s’的概率)定義爲: 假如總共有n種狀態可以選擇。那麼
相關文章
相關標籤/搜索