強化學習基礎 | (3) 用動態規劃(DP)求解

原文地址 作者:劉建平 在馬爾科夫決策過程(MDP)中,我們討論了用馬爾科夫假設來簡化強化學習模型的複雜度,這一篇我們在馬爾科夫假設和貝爾曼方程的基礎上討論使用動態規劃(Dynamic Programming, DP)來求解強化學習的問題。 動態規劃這一篇對應Sutton書的第四章和UCL強化學習課程的第三講。 文章目錄 1. 動態規劃和強化學習問題的聯繫 2. 策略評估求解預測問題 3. 策略評
相關文章
相關標籤/搜索