強化學習中的無模型控制

時間 2020-12-30

標籤強化學習简体版

原文原文鏈接

在上一篇文章強化學習中的無模型預測中，有說過這個無模型強化學習的預測問題，通過TD、n-step TD或者MC的方法能夠獲得值函數，那拿到value之後如何獲取policy呢？ Model-Free Control in Reinforcement Learning 在model free control中的第一個概念就是on-policy 和 off-policy，在現實中的很多問題都是

>>阅读原文<<