強化學習 之 馬爾科夫決策過程

(1)當某些現實場景不適用於馬爾可夫性質時,基於MDP假設的強化學習用什麼方法解決? 如果一些場景的‘狀態’或者‘觀測’不具備馬爾可夫性質,那就再其基礎上再抽象出一個latent variable使之具備馬爾可夫性質。其實MDP裏面的‘狀態’就是在‘觀測’基礎上抽象出來的具有馬爾可夫性質的latent variable。 如果大家喜歡這篇文章的話,希望大家收藏、轉發、關注、評論、點贊,轉載請註明出
相關文章
相關標籤/搜索