強化學習系列（七）：n-step Bootstrapping (步步爲營）

時間 2021-01-04

標籤強化學習人工智能简体版

原文原文鏈接

一、前言在強化學習系列（五）：蒙特卡羅方法（Monte Carlo)和強化學習系列（六）：時間差分算法（Temporal-Difference Learning)中，我們介紹了兩種用於求解環境模型未知的MDP方法：MC和TD，MC是一種每episode更新一次的方法，TD是單步更新的方法，n-step Bootstrapping （步步爲營）是一種介於TD和MC之間的方法，n-step更新一次。

>>阅读原文<<