[強化學習-7] 模型和規劃(model and planning)

時間 2021-01-04

原文原文鏈接

之前的博客都在講從之前的experience中學習policy或者value function，這一篇博客講解從之前的experience中學習model 何爲model 一句話總結就是狀態轉移概率和獎勵 Learning a model 狀態轉移概率s, a → s‘可以看作是一個density estimation問題，而獎勵s, a → r可以看做是regression問題有很多方式建模

>>阅读原文<<