【強化學習】第一篇--馬爾科夫決策過程

時間 2020-12-29

標籤強化學習简体版

原文原文鏈接

作者：王小草筆記時間：2019年1月20日 1 馬爾科夫性質與過程 1.1 馬爾科夫性質馬爾科夫性質即：系統的下一狀態只與當前狀態有關，與以前的歷史狀態無關。公式表達：特點：當前狀態蘊含所有相關歷史信息一旦當前狀態已知，歷史信息將會被拋棄 1.2 馬爾科夫過程馬爾科夫過程即：該過程中所有狀態都滿足馬爾科夫性。表示：馬爾科夫過程可以用一個二元組表示(S, P) S 是一個有限的

>>阅读原文<<