對馬爾科夫決策過程MDP(Markov Decision Processes)的一點理解

  參考資料:   https://inst.eecs.berkeley.edu/   USTC_MIRA_ML_Slides Lecturer: Jie Wang    機器學習課上到了增強學習這一節,其中提到了Markov決策過程以及增強學習的一些個算法(比如:增強學習中的Q-learning算法,MDP中的value-iteration和policy-iteration)。但是其中還有一些不
相關文章
相關標籤/搜索