強化學習：基於MDP的經典RL方法 (基於南大俞揚博士演講的少量修改和補充）

時間 2021-01-16

標籤 Q-learning SARSA off-policy on-policy 简体版

原文原文鏈接

三、從馬爾可夫決策過程到強化學習在強化學習任務中，獎賞和轉移都是未知的，需要通過學習得出。具體解決辦法有兩個：一種是還原出獎賞函數和轉移函數。首先把MDP還原出來，然後再在MDP上解這個策略，這類方法稱爲有模型（Model-Based）方法，這裏的模型指的是MDP。還有一類和它相對應的方法，免模型（Model-Free）法，即不還原獎賞和轉移。基於模型的方法在這類方法中，智能體會維護Mo

>>阅读原文<<