強化學習 第7章

第七章 n-step引導 在本章中,我們統一了蒙特卡羅(MC)方法和前兩章中介紹的one-step臨時(TD)方法。 MC方法和one-step TD方法都不是最好的。在本章中,我們將介紹n-step TD方法,這個方法概括了兩種方法,以便可以根據需要平滑地從一種方法轉換到另一種方法,以滿足特定任務的需求。n-step方法在一端採用MC方法,在另一端採用one-step TD方法。最好的方法通常介
相關文章
相關標籤/搜索