強化學習系列（六）：時間差分算法（Temporal-Difference Learning)

時間 2021-01-12

標籤強化學習 Q學習简体版

原文原文鏈接

一、前言在強化學習系列（五）：蒙特卡羅方法（Monte Carlo)中，我們提到了求解環境模型未知MDP的方法——Monte Carlo，但該方法是每個episode 更新一次（episode-by-episode)。本章介紹一種單步更新的求解環境模型未知MDP的方法——Temporal-Difference Learning(TD)。TD（0）算法結合了DP 和Monte Carlo算法的優點

>>阅读原文<<