MIT s069課程學習筆記 01 強化學習到深度強化學習

強化學習到深度強化學習 部分內容轉載自知乎黃偉亮 https://zhuanlan.zhihu.com/p/35688924 強化學習的理論框架——馬科夫決策過程(MDP) 強化學習,本質上是讓計算機學會自主決策的方法論。而馬可夫決策過程(Markov decision process, MDP)則是強化學習中,對現實問題進行建模的數學模型,它把所有的現實問題都抽象爲: 智能體與環境的互動過程;
相關文章
相關標籤/搜索