模型彙總19 強化學習(Reinforcement Learning)算法基礎及分類

前一期介紹了強化學習基礎知識,今天,主要介紹強化學習各種算法理論基礎。處於一個state空間下,Agent一系列動作決策問題,類似於一個馬爾科夫決策過程(Markov Decision Process, MDP),即當前的狀態只與前一個狀態有關,因此,Agent面臨的其實是在某個狀態State(環境下),一個最優動作(Action)序列的決策問題。動態規劃和強化學習都是基於馬爾科夫鏈,求解一個最優
相關文章
相關標籤/搜索