馬爾可夫決策過程(Markov Decision Process, MDP)

馬爾可夫決策過程(Markov Decision Processes,MDPs) MDPs 簡單說就是一個智能體(Agent)採取行動(Action)從而改變自己的狀態(State)獲得獎勵(Reward)與環境(Environment)發生交互的循環過程。絕大多數的增強學習都可以模型化爲MDP的問題。MDP 的策略完全取決於當前狀態,這也是它馬爾可夫性質的體現,根據當前的狀態來決定動作。元組表示
相關文章
相關標籤/搜索