David silver強化學習課程第二課馬爾科夫決策過程

時間 2020-12-23

標籤人工智能強化學習简体版

原文原文鏈接

第二課馬爾科夫決策過程本章主要講解馬爾科夫決策過程的基礎知識，課程組提到幾乎所有的強化學習問題都可以表示爲馬爾科夫決策過程。這裏注意本章講解的馬爾科夫決策過程的環境是完全可觀測的，一般強化學習問題的環境是部分可觀測，所以也存在部分可觀測的馬爾科夫決策過程。 1 馬爾科夫性當前的狀態可以充分地表示未來信息（由當前狀態就可以知道下一刻的狀態轉移概率和獎勵），則稱該狀態滿足馬爾可夫性。在上一節課中

>>阅读原文<<