強化學習基礎總結(三)

強化學習基礎總結(三) @(Machine Learning) 覆蓋以下幾個主題: Markov過程 Markov獎勵過程 Markov決策過程 MDPs擴展 MDP簡介 MDP是用於正式描述強化學習模型中的環境(environment)。 這裏的環境是完全可觀測的。 幾乎所有的RL問題都可以被定義爲MDP模型。 馬爾可夫性 如前面文章所說,馬爾可夫性就是:給定現在,將來與過去無關。 數學語言描述
相關文章
相關標籤/搜索