模型彙總19 強化學習（Reinforcement Learning）算法基礎及分類

時間 2021-01-16

原文原文鏈接

前一期介紹了強化學習基礎知識，今天，主要介紹強化學習各種算法理論基礎。處於一個state空間下，Agent一系列動作決策問題，類似於一個馬爾科夫決策過程（Markov Decision Process， MDP），即當前的狀態只與前一個狀態有關，因此，Agent面臨的其實是在某個狀態State（環境下），一個最優動作（Action）序列的決策問題。動態規劃和強化學習都是基於馬爾科夫鏈，求解一個最優

>>阅读原文<<