強化學習的基礎總結

時間 2019-12-13

標籤強化學習基礎總結简体版

原文原文鏈接

MDP簡介 MDP是用於正式描述強化學習模型中的環境(environment)。app 這裏的環境是徹底可觀測的。機器學習幾乎全部的RL問題均可以被定義爲MDP模型。函數馬爾可夫性學習如前面文章所說，馬爾可夫性就是：給定如今，未來與過去無關。atom 數學語言描述就是：spa P[St+1|St]=P[St+1|S1,S2,...,St]P[St+1|St]=P[St+1|S1,S2,...

>>阅读原文<<