強化學習系列(四):動態規劃

一、前言 在強化學習系列(三):馬爾科夫決策過程中,我們提到了什麼是馬爾科夫過程,並且表示大部分強化學習問題都可以看做滿足馬爾科夫決策過程,但我們沒有說如何求解馬爾科夫決策過程。在本章中,我們將介紹如何用動態規劃(Dynamic Programming, DP)的方法求解馬爾科夫決策過程,此處,我們假設需要求解的MDP是環境完全已知的。(注意:這不同於強化學習問題,大部分強化學習問題都是環境部分未
相關文章
相關標籤/搜索