強化學習之馬爾科夫決策過程

時間 2020-12-29

標籤強化學習算法機器學習人工智能简体版

原文原文鏈接

（1）當某些現實場景不適用於馬爾可夫性質時，基於MDP假設的強化學習用什麼方法解決？如果一些場景的‘狀態’或者‘觀測’不具備馬爾可夫性質，那就再其基礎上再抽象出一個latent variable使之具備馬爾可夫性質。其實MDP裏面的‘狀態’就是在‘觀測’基礎上抽象出來的具有馬爾可夫性質的latent variable。如果大家喜歡這篇文章的話，希望大家收藏、轉發、關注、評論、點贊，轉載請註明出

>>阅读原文<<