強化學習之Q-Learing基礎

強化學習之Q-Learing基礎 文章目錄 強化學習之Q-Learing基礎 馬爾可夫決策過程MDP 1)部分可觀察馬爾可夫決策過程POMDPs 2)Markov Games: 總結 強化學習之Q-Learning 馬爾可夫決策過程MDP MDP 是一個離散時間隨機控制過程。MDP提供了用於建模決策問題的數學框架,在該決策中,結果是部分隨機的,並且受決策者或代理商的控制。MDP對於研究可以通過動態
相關文章
相關標籤/搜索