【深度強化學習】2. 馬爾科夫決策過程

【DataWhale打卡】周博磊博士-第二節馬爾科夫決策過程,主要內容: 馬爾科夫鏈、馬爾科夫獎勵過程、馬爾科夫決策過程 Policy evaluation in MDP Control in MDP: policy iteration & value iteration 這部分主要講的除了MDP問題本身,主要是動態規劃方面的求解方法。 文章目錄 一、引入 二、Markov Process(MP)
相關文章
相關標籤/搜索