強化學習中的無模型控制

  在上一篇文章強化學習中的無模型預測中,有說過這個無模型強化學習的預測問題,通過TD、n-step TD或者MC的方法能夠獲得值函數,那拿到value之後如何獲取policy呢? Model-Free Control in Reinforcement Learning   在model free control中的第一個概念就是on-policy 和 off-policy,在現實中的很多問題都是
相關文章
相關標籤/搜索