強化學習基礎 | (3) 用動態規劃（DP）求解

時間 2021-01-04

標籤 Lee Hung-yi強化學習简体版

原文原文鏈接

原文地址作者：劉建平在馬爾科夫決策過程(MDP)中，我們討論了用馬爾科夫假設來簡化強化學習模型的複雜度，這一篇我們在馬爾科夫假設和貝爾曼方程的基礎上討論使用動態規劃(Dynamic Programming, DP)來求解強化學習的問題。動態規劃這一篇對應Sutton書的第四章和UCL強化學習課程的第三講。文章目錄 1. 動態規劃和強化學習問題的聯繫 2. 策略評估求解預測問題 3. 策略評

>>阅读原文<<