對馬爾科夫決策過程MDP（Markov Decision Processes）的一點理解

時間 2021-01-11

原文原文鏈接

　　參考資料：　　https://inst.eecs.berkeley.edu/ 　　USTC_MIRA_ML_Slides Lecturer: Jie Wang 　　機器學習課上到了增強學習這一節，其中提到了Markov決策過程以及增強學習的一些個算法（比如：增強學習中的Q-learning算法，MDP中的value-iteration和policy-iteration）。但是其中還有一些不

>>阅读原文<<