強化學習 4 —— 時序差分法（TD）的解決無模型的預測與控制（SARSA and Q-Learning）

時間 2021-01-13

標籤強化學習简体版

原文原文鏈接

強化學習 4 —— Model Free TD 在上篇文章強化學習 3 ——蒙特卡洛 (MC) 採樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）採樣法的預測與控制問題，這次我們介紹另外一種方法——時序差分法（TD）一、時序差分採樣法（TD）對於MC採樣法，如果我們沒有完整的狀態序列，那麼就無法使用蒙特卡羅法求解了。當獲取不到完整狀態序列時，

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。