對馬爾科夫決策過程的代碼補充解釋

時間 2021-01-20

原文原文鏈接

　　這篇文章是https://www.cnblogs.com/chester-cs/p/12928649.html的代碼補充解釋，這裏我僅僅實現了Value迭代，Policy迭代讀者可以嘗試自己實現。　　學習了MDP即馬爾科夫決策過程之後我就想用代碼實現實現，想看看機器是如何不斷優化自身的。　　考慮這樣一個世界：　　有獎勵，有陷阱，有阻礙。給Agent發出指令後Agent的行爲是非確定的。　

>>阅读原文<<