強化學習 Model-Based 和 Model-Free

時間 2021-01-08

標籤強化學習简体版

原文原文鏈接

Model指的是針對環境的建模，即輸入Action，環境的響應：Reward和State。 Model-Free：環境對輸入的響應就是一個映射，without model，如常見的深度強化學習DQN/A3C/PPO等； Model-Based：環境對輸入的響應是統計概率分佈P(s_new|s,a)及P(r|s,a),如動態規劃等傳統強化學習方法。

>>阅读原文<<