基於模型的強化學習

時間 2020-12-30

標籤機器學習強化學習算法人工智能简体版

原文原文鏈接

（1）在model-based RL裏，雖然學習MDP模型可以提高強化學習的效率，但是如果模型誤差較大可能導致學不到較好的策略，這個問題一般怎麼解決？如果模型學習的不夠精準，那就只能用很短很短的rollout來做planning。例如Q-planning就是1步的rollout，這樣並不能特別高的提升sample efficiency。如果模型比較準，那就可以用Model-based Poli

>>阅读原文<<