David Silver 第二講MDP基本概念(通俗理解)

David Silver 第二講MDP基本概念 本文只是作者個人理解,如有錯誤,歡迎各位指正。 一、基本定義 MDP過程是一個五元組——狀態空間+行爲空間+狀態轉移概率空間+獎勵+折扣因子 其中,狀態空間,折扣因子類比於MRP(馬爾可夫獎勵過程) 對於,行爲空間:一組有限行爲的集合,例:走迷宮遊戲的(上下左右四個動作)構成行爲空間            狀態轉移概率:與MP(馬爾可夫過程)和MRP
相關文章
相關標籤/搜索