強化學習基礎總結（三）

時間 2021-01-08

原文原文鏈接

強化學習基礎總結（三） @(Machine Learning) 覆蓋以下幾個主題： Markov過程 Markov獎勵過程 Markov決策過程 MDPs擴展 MDP簡介 MDP是用於正式描述強化學習模型中的環境(environment)。這裏的環境是完全可觀測的。幾乎所有的RL問題都可以被定義爲MDP模型。馬爾可夫性如前面文章所說，馬爾可夫性就是：給定現在，將來與過去無關。數學語言描述

>>阅读原文<<