強化學習——值函數與Bellman方程

時間 2020-05-23

標籤強化學習函數 bellman 方程简体版

原文原文鏈接

在強化學習中，agent和環境之間進行一系列交互：在每一個時刻 t ，根據環境的狀態和獎勵，agent採起某一行爲；這個行爲會做用到環境中，環境改變狀態並對agent進行獎勵。web agent的目標是最大化累積獎勵。svg 1 MDP 馬爾可夫決策過程(Markov Decision Process, MDP)是對環境的建模。函數 MDP是一個五元組 <S,A,P,R,γ> ，其中 - S 是一

>>阅读原文<<