RL強化學習基礎課 class.3

時間 2021-01-14

標籤強化學習简体版

原文原文鏈接

在MDP（馬爾可夫）中的決策過程：馬爾可夫鏈 --> 馬爾可夫獎勵過程 --> 馬爾可夫決策過程在馬爾可夫策略中的決策評價（就是給定了一個決策過後，如何計算其價值函數）馬爾可夫中的控制：策略迭代和值迭代馬爾可夫模型可以對現實世界問題建模，是描述強化學習的一個通用框架在MDP中，環境是全部可以觀測（fully observable）最優控制主要會被處理爲連續的MDPS問題部分可

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。