對馬爾科夫決策過程的代碼補充解釋

  這篇文章是https://www.cnblogs.com/chester-cs/p/12928649.html的代碼補充解釋,這裏我僅僅實現了Value迭代,Policy迭代讀者可以嘗試自己實現。   學習了MDP即馬爾科夫決策過程之後我就想用代碼實現實現,想看看機器是如何不斷優化自身的。   考慮這樣一個世界:  有獎勵,有陷阱,有阻礙。給Agent發出指令後Agent的行爲是非確定的。  
相關文章
相關標籤/搜索