馬爾可夫決策過程（Markov Decision Process, MDP）

時間 2020-12-30

原文原文鏈接

馬爾可夫決策過程（Markov Decision Processes,MDPs） MDPs 簡單說就是一個智能體（Agent）採取行動（Action）從而改變自己的狀態（State）獲得獎勵（Reward）與環境（Environment）發生交互的循環過程。絕大多數的增強學習都可以模型化爲MDP的問題。MDP 的策略完全取決於當前狀態，這也是它馬爾可夫性質的體現，根據當前的狀態來決定動作。元組表示

>>阅读原文<<