Reinforcement Learning_By David Silver筆記四: Model Free Prediction

前面的動態規劃主要用來解決model已知的MDP問題,這裏主要解決model/環境未知時的MDP預估價值函數問題,方法主要有: MC方法:不需要知道轉移矩陣或回報矩陣,在非馬爾科夫環境中高效 時序差分方法: Monte-Carlo Learning 直接從experience的episode中學習 不需要MDP的transition、rewards 主要思想:value = mean return
相關文章
相關標籤/搜索