RL強化學習基礎課 class.3

在MDP(馬爾可夫)中的決策過程: 馬爾可夫鏈 --> 馬爾可夫獎勵過程 --> 馬爾可夫決策過程 在馬爾可夫策略中的決策評價 (就是給定了一個決策過後,如何計算其價值函數) 馬爾可夫中的控制:策略迭代 和 值迭代 馬爾可夫模型可以對現實世界問題建模,是描述強化學習的一個通用框架 在MDP中,環境是全部可以觀測(fully observable)  最優控制主要會被處理爲連續的MDPS問題 部分可
相關文章
相關標籤/搜索