基於模型的強化學習

(1)在model-based RL裏,雖然學習MDP模型可以提高強化學習的效率,但是如果模型誤差較大可能導致學不到較好的策略,這個問題一般怎麼解決? 如果模型學習的不夠精準,那就只能用很短很短的rollout來做planning。例如Q-planning就是1步的rollout,這樣並不能特別高的提升sample efficiency。 如果模型比較準,那就可以用Model-based Poli
相關文章
相關標籤/搜索