David Silver強化學習課程筆記(五)

第五課:模型無關的控制         本文主要介紹模型無關的控制,包括同策略方法(On-Policy,也譯作「在策略」)和異策略(Off-Policy,也譯作「離策略」)方法,由於是模型無關,因此本文聊的是學習(learning),而不是規劃(planning)。        1.簡介         在第一課中我們說到了預測和控制的區別,這裏就不再贅述,下面我們主要聊一下同策略方法和異策略方
相關文章
相關標籤/搜索