馬爾可夫決策過程 Markov decision process, CMDP

時間 2020-12-30

原文原文鏈接

馬爾可夫決策過程爲決策者在隨機環境下做出決策提供了數學架構模型，爲動態規劃與強化學習的最優化問題提供了有效的數學工具，廣泛用於機器人學、自動化控制、經濟學、以及工業界等領域。當我們提及馬爾可夫決策過程時，我們一般特指其在離散時間中的隨機控制過程：即對於每個時間節點，當該過程處於某狀態(s)時，決策者可採取在該狀態下被允許的任意決策(a)，此後下一步系統狀態將隨機產生，同時回饋給決策者相應的期望值