強化學習(Dyna-Q,Dyna2)

基於模型的強化學習(Model Based RL) Value Based --Policy Based --Model Based Value Based學習價值來指導策略,Policy Based直接學習策略以收穫最大價值,還有將兩者融合的AC。但是在學習價值或策略都十分困難的時候(如某千變萬化的圍棋),學習模型可能更好,即睜開眼睛看世界,嘗試理解所處的環境,通過完成對環境的基本理解來指導強化
相關文章
相關標籤/搜索