強化學習系列（四）：動態規劃

時間 2021-07-14

標籤強化學習動態規劃简体版

原文原文鏈接

一、前言在強化學習系列（三）：馬爾科夫決策過程中，我們提到了什麼是馬爾科夫過程，並且表示大部分強化學習問題都可以看做滿足馬爾科夫決策過程，但我們沒有說如何求解馬爾科夫決策過程。在本章中，我們將介紹如何用動態規劃（Dynamic Programming, DP)的方法求解馬爾科夫決策過程，此處，我們假設需要求解的MDP是環境完全已知的。（注意：這不同於強化學習問題，大部分強化學習問題都是環境部分未

>>阅读原文<<