DL--Markov decision process(MDP)(馬爾可夫決策過程)

wiki:https://en.wikipedia.org/wiki/Markov_decision_process 馬爾可夫決策過程(MDP)是一個離散時間隨機控制過程。它提供了一個數學框架,用於在結果部分隨機、部分受決策者控制的情況下建模決策。MDPs有助於研究動態規劃和強化學習所解決的優化問題。MDPs至少早在20世紀50年代就已爲人所知;[1]Markov決策過程的一個核心研究機構源於Ro
相關文章
相關標籤/搜索