強化學習（Dyna-Q，Dyna2）

時間 2021-01-15

標籤強化學習 Dyna-Q Dyna2 简体版

原文原文鏈接

基於模型的強化學習（Model Based RL） Value Based --Policy Based --Model Based Value Based學習價值來指導策略，Policy Based直接學習策略以收穫最大價值，還有將兩者融合的AC。但是在學習價值或策略都十分困難的時候（如某千變萬化的圍棋），學習模型可能更好，即睜開眼睛看世界，嘗試理解所處的環境，通過完成對環境的基本理解來指導強化

>>阅读原文<<