強化學習:基於MDP的經典RL方法 (基於南大俞揚博士演講的少量修改和補充)

三、從馬爾可夫決策過程到強化學習 在強化學習任務中,獎賞和轉移都是未知的,需要通過學習得出。具體解決辦法有兩個: 一種是還原出獎賞函數和轉移函數。首先把MDP還原出來,然後再在MDP上解這個策略,這類方法稱爲有模型(Model-Based)方法,這裏的模型指的是MDP。 還有一類和它相對應的方法,免模型(Model-Free)法,即不還原獎賞和轉移。 基於模型的方法 在這類方法中,智能體會維護Mo
相關文章
相關標籤/搜索