MIT s069課程學習筆記 01 強化學習到深度強化學習

時間 2021-07-10

原文原文鏈接

強化學習到深度強化學習部分內容轉載自知乎黃偉亮 https://zhuanlan.zhihu.com/p/35688924 強化學習的理論框架——馬科夫決策過程（MDP）強化學習，本質上是讓計算機學會自主決策的方法論。而馬可夫決策過程（Markov decision process, MDP）則是強化學習中，對現實問題進行建模的數學模型，它把所有的現實問題都抽象爲：智能體與環境的互動過程；

>>阅读原文<<