強化學習 有限馬爾可夫決策過程

一、馬爾可夫動力 MDP(馬爾可夫)是序列決策的經典形式化的表達,其動作action不僅影響當前的即時收益,還影響後續的狀態以及未來的收益。MDP是一種通過交互式學習來實現目標的理論框架,進行學習及決策的機器被稱爲 agent。智能體之外所有與其相互作用的事物都被稱爲環境 environment。這些事物之間持續進行交互,智能體選擇動作,環境對這些動作做出相應的響應,並向智能體呈現出新的狀態。環境
相關文章
相關標籤/搜索