強化學習基礎學習系列之model-free/planning/model-base/dyna方法總結

介紹 model-free 方法 planning model-base 方法 dyna方法 關於使用sample的forward search方法的理解 各種機制的總結 介紹 前面說的value-base方法(除了動態規劃)也好,policy-base的方法也好,都是假設沒有模型而直接與實際環境交互來學習的,我們把沒有用到模型的方法叫做model-free方法,但並不是說value-base和p
相關文章
相關標籤/搜索