強化學習之馬爾科夫決策過程 5

時間 2020-12-29

原文原文鏈接

馬爾科夫決策過程在離散馬爾科夫的基礎上，引入獎勵和動作。馬爾科夫性表示t+1的狀態只與t時刻有關。在馬爾科夫決策過程中，agent已知一系列狀態，動作和折扣率，但是一步的環境動態特性和rewards是不知道的。次圖描述了馬爾科夫決策過程。圖中唯一個自動充電吸塵器，他有2個狀態high電量和low電量，有3個動作wait，search，recharge。藍色的數字代表採取該行動的概率，黃色代表收穫

>>阅读原文<<