強化學習基礎 | (17) 基於模型的強化學習與Dyna算法框架

時間 2021-01-01

標籤強化學習基礎简体版

原文原文鏈接

原文地址在前面我們討論了基於價值的強化學習(Value Based RL)和基於策略的強化學習模型(Policy Based RL)，本篇我們討論最後一種強化學習流派，基於模型的強化學習(Model Based RL)，以及基於模型的強化學習算法框架Dyna。本篇主要參考了UCL強化學習課程的第8講和Dyna-2的論文。 1. 基於模型的強化學習簡介基於價值的強化學習模型和基於策略的強化學習

>>阅读原文<<