David silver強化學習課程第二課 馬爾科夫決策過程

第二課 馬爾科夫決策過程 本章主要講解馬爾科夫決策過程的基礎知識,課程組提到幾乎所有的強化學習問題都可以表示爲馬爾科夫決策過程。這裏注意本章講解的馬爾科夫決策過程的環境是完全可觀測的,一般強化學習問題的環境是部分可觀測,所以也存在部分可觀測的馬爾科夫決策過程。 1 馬爾科夫性 當前的狀態可以充分地表示未來信息(由當前狀態就可以知道下一刻的狀態轉移概率和獎勵),則稱該狀態滿足馬爾可夫性。在上一節課中
相關文章
相關標籤/搜索