強化學習之Q-Learing基礎

時間 2021-01-12

原文原文鏈接

強化學習之Q-Learing基礎文章目錄強化學習之Q-Learing基礎馬爾可夫決策過程MDP 1)部分可觀察馬爾可夫決策過程POMDPs 2）Markov Games：總結強化學習之Q-Learning 馬爾可夫決策過程MDP MDP 是一個離散時間隨機控制過程。MDP提供了用於建模決策問題的數學框架，在該決策中，結果是部分隨機的，並且受決策者或代理商的控制。MDP對於研究可以通過動態

>>阅读原文<<