DL--Markov decision process（MDP）（馬爾可夫決策過程）

時間 2021-01-11

標籤深度學習 Markov decision process 馬爾科夫決策简体版

原文原文鏈接

wiki：https://en.wikipedia.org/wiki/Markov_decision_process 馬爾可夫決策過程（MDP）是一個離散時間隨機控制過程。它提供了一個數學框架，用於在結果部分隨機、部分受決策者控制的情況下建模決策。MDPs有助於研究動態規劃和強化學習所解決的優化問題。MDPs至少早在20世紀50年代就已爲人所知；[1]Markov決策過程的一個核心研究機構源於Ro

>>阅读原文<<