強化學習之馬爾科夫決策過程 5

馬爾科夫決策過程在離散馬爾科夫的基礎上,引入獎勵和動作。馬爾科夫性表示t+1的狀態只與t時刻有關。在馬爾科夫決策過程中,agent已知一系列狀態,動作和折扣率,但是一步的環境動態特性和rewards是不知道的。 次圖描述了馬爾科夫決策過程。圖中唯一個自動充電吸塵器,他有2個狀態high電量和low電量,有3個動作wait,search,recharge。藍色的數字代表採取該行動的概率,黃色代表收穫
相關文章
相關標籤/搜索