【RL系列】馬爾可夫決策過程中狀態價值函數的一般形式

請先閱讀上一篇文章:【RL系列】馬爾可夫決策過程與動態編程 在上一篇文章裏,主要討論了馬爾可夫決策過程模型的來源和基本思想,並以MAB問題爲例簡單的介紹了動態編程的基本方法。雖然上一篇文章中的馬爾可夫決策過程模型實現起來比較簡單,但我認爲其存在兩個小問題: 數學表達上不夠簡潔 狀態價值評價型問題與動作價值評價型問題是分離的,形式上不夠統一     本篇主要來解決第一個問題。   第一個問題是比較直
相關文章
相關標籤/搜索