《Reinforcement Learning》 讀書筆記 5:蒙特卡洛(Monte Carlo Methods)

《Reinforcement Learning: An Introduction》 讀書筆記 - 目錄 問題 前面兩章都假設我們已知MDP的分佈 p(s′,r|s,a) p ( s ′ , r | s , a ) (model),但有時這一點難以做到(第2章的多臂老虎機問題是一個特殊的例子),或者說這種Markov假設可能是不合理的,那麼我們只能從真實/模擬環境中去獲取這些知識 PS: 以下只考慮
相關文章
相關標籤/搜索