強化學習(三):有限馬爾可夫決策與貝爾曼方程

強化學習(三):有限馬爾可夫決策與貝爾曼方程 夏梔的博客——王嘉寧的個人網站 正式上線,歡迎訪問和關注:http://www.wjn1996.cn 1、有限馬爾可夫決策過程   有限馬爾可夫決策過程(MDP)是強化學習的主要思想,也是後續多個解決強化學習目標的基本假設。   我們先來回顧一下強化學習的學習過程。強化學習的主體是智能體,與之相互交互的事物稱爲環境。當 t t t時刻智能體所處某一個狀
相關文章
相關標籤/搜索