3. 強化學習之——無模型的價值函數估計和控制

目錄 本次課程主要內容 回顧上次課講的馬爾科夫決策過程 探討什麼是 model-free  Model-free prediction:未知 MDP 情況下的策略估計(值函數估計) Model-free control:未知 MDP 情況下的值函數優化 本次課程主要內容 model-free prediction:估計一個未知 MDP 模型的 value function model-free c
相關文章
相關標籤/搜索