強化學習基礎 | (17) 基於模型的強化學習與Dyna算法框架

原文地址 在前面我們討論了基於價值的強化學習(Value Based RL)和基於策略的強化學習模型(Policy Based RL),本篇我們討論最後一種強化學習流派,基於模型的強化學習(Model Based RL),以及基於模型的強化學習算法框架Dyna。 本篇主要參考了UCL強化學習課程的第8講和Dyna-2的論文。 1. 基於模型的強化學習簡介 基於價值的強化學習模型和基於策略的強化學習
相關文章
相關標籤/搜索