【深度強化學習】2. 馬爾科夫決策過程

時間 2021-01-22

原文原文鏈接

【DataWhale打卡】周博磊博士-第二節馬爾科夫決策過程，主要內容：馬爾科夫鏈、馬爾科夫獎勵過程、馬爾科夫決策過程 Policy evaluation in MDP Control in MDP: policy iteration & value iteration 這部分主要講的除了MDP問題本身，主要是動態規劃方面的求解方法。文章目錄一、引入二、Markov Process(MP)

>>阅读原文<<