[強化學習-7] 模型和規劃(model and planning)

之前的博客都在講從之前的experience中學習policy或者value function,這一篇博客講解從之前的experience中學習model 何爲model 一句話總結就是狀態轉移概率和獎勵 Learning a model 狀態轉移概率s, a → s‘可以看作是一個density estimation問題,而獎勵s, a → r可以看做是regression問題 有很多方式建模
相關文章
相關標籤/搜索