強化學習有限馬爾可夫決策過程

時間 2021-01-13

標籤機器學習简体版

原文原文鏈接

一、馬爾可夫動力 MDP(馬爾可夫)是序列決策的經典形式化的表達，其動作action不僅影響當前的即時收益，還影響後續的狀態以及未來的收益。MDP是一種通過交互式學習來實現目標的理論框架，進行學習及決策的機器被稱爲 agent。智能體之外所有與其相互作用的事物都被稱爲環境 environment。這些事物之間持續進行交互，智能體選擇動作，環境對這些動作做出相應的響應，並向智能體呈現出新的狀態。環境

>>阅读原文<<