強化學習系列(七):n-step Bootstrapping (步步爲營)

一、前言 在強化學習系列(五):蒙特卡羅方法(Monte Carlo)和強化學習系列(六):時間差分算法(Temporal-Difference Learning)中,我們介紹了兩種用於求解環境模型未知的MDP方法:MC和TD,MC是一種每episode更新一次的方法,TD是單步更新的方法,n-step Bootstrapping (步步爲營)是一種介於TD和MC之間的方法,n-step更新一次。
相關文章
相關標籤/搜索