強化學習 4 —— 時序差分法(TD)的解決無模型的預測與控制(SARSA and Q-Learning)

強化學習 4 —— Model Free TD 在上篇文章強化學習 3 ——蒙特卡洛 (MC) 採樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題,主要介紹了蒙特卡洛(MC)採樣法的預測與控制問題,這次我們介紹另外一種方法——時序差分法(TD) 一、時序差分採樣法(TD) 對於MC採樣法,如果我們沒有完整的狀態序列,那麼就無法使用蒙特卡羅法求解了。當獲取不到完整狀態序列時,
相關文章
相關標籤/搜索