【強化學習】task2 馬爾科夫決策過程

強化學習 第二章 2.1 馬爾科夫鏈 2.2 馬爾科夫獎勵過程 2.3 馬爾科夫決策過程 2.4 馬爾科夫鏈馬爾科夫獎勵馬爾科夫決策區別 目錄 待補充。。。。。 第二章 馬爾科夫決策是強化學習中最常見的一種框架 2.1 馬爾科夫鏈 一個狀態滿足馬爾科夫轉移指的是對於一個狀態只取決於它前一個的狀態而與其他狀態無關 圖中描述了一個狀態到達其他狀態的概率 對於上面這樣的一個圖可以用狀態轉移矩陣來表示 每
相關文章
相關標籤/搜索