強化學習——值函數與Bellman方程

在強化學習中,agent和環境之間進行一系列交互:在每一個時刻 t ,根據環境的狀態和獎勵,agent採起某一行爲;這個行爲會做用到環境中,環境改變狀態並對agent進行獎勵。web agent的目標是最大化累積獎勵。svg 1 MDP 馬爾可夫決策過程(Markov Decision Process, MDP)是對環境的建模。函數 MDP是一個五元組 <S,A,P,R,γ> ,其中 - S 是一
相關文章
相關標籤/搜索