第一課：一文讀懂馬爾科夫過程

時間 2019-12-04

標籤一課一文讀懂過程简体版

原文原文鏈接

1.馬爾科夫決策過程（MDPs）簡介馬爾科夫決策過程是對強化學習(RL)問題的數學描述。幾乎全部的RL問題都能經過MDPs來描述：函數最優控制問題能夠用MDPs來描述; 部分觀測環境能夠轉化成POMDPs; 賭博機問題是隻有一個狀態的MDPs; 注：雖然大部分DL問題都能轉化爲MDPs，可是如下所描述的MDPs是全觀測的狀況。性能強化學習中的表述符號：學習 2.馬爾科夫性只要知道如今，

>>阅读原文<<