強化學習二、MDP

        前面已經講解了什麼是強化學習,也以Maze遊戲爲例形象的介紹了強化學習涉及到的主要概念:S、A、P、R、γ,但並未涉及到數學公式。想了解強化學習的朋友可以參考鏈接https://blog.csdn.net/wshzd/article/details/103372419。本文將以馬爾科夫決策過程MDP(Markov decision processes)爲例詳細介紹這些概念之間的關係
相關文章
相關標籤/搜索