強化學習（三）：有限馬爾可夫決策與貝爾曼方程

時間 2021-01-06

原文原文鏈接

強化學習（三）：有限馬爾可夫決策與貝爾曼方程夏梔的博客——王嘉寧的個人網站正式上線，歡迎訪問和關注：http://www.wjn1996.cn 1、有限馬爾可夫決策過程有限馬爾可夫決策過程（MDP）是強化學習的主要思想，也是後續多個解決強化學習目標的基本假設。我們先來回顧一下強化學習的學習過程。強化學習的主體是智能體，與之相互交互的事物稱爲環境。當 t t t時刻智能體所處某一個狀

>>阅读原文<<