【RL系列】馬爾可夫決策過程中狀態價值函數的一般形式

時間 2020-12-23

原文原文鏈接

請先閱讀上一篇文章：【RL系列】馬爾可夫決策過程與動態編程在上一篇文章裏，主要討論了馬爾可夫決策過程模型的來源和基本思想，並以MAB問題爲例簡單的介紹了動態編程的基本方法。雖然上一篇文章中的馬爾可夫決策過程模型實現起來比較簡單，但我認爲其存在兩個小問題：數學表達上不夠簡潔狀態價值評價型問題與動作價值評價型問題是分離的，形式上不夠統一本篇主要來解決第一個問題。第一個問題是比較直