強化學習之馬爾科夫過程

時間 2021-01-11

原文原文鏈接

馬爾可夫過程馬爾可夫決策過程（Markov Decision Processes,MDPs）是對強化學習問題的數學描述。幾乎所有的RL問題都能用MDPs來表述：最優控制問題可以描述爲連續MDPs 部分觀測環境可以轉化成POMDPs 賭博機問題是隻有一個狀態的MDPs 本文中介紹的MDPs是在全觀測的環境下進行的！馬爾科夫性如果在t時刻的狀態 St S t 滿足如下等式，那麼這個狀態被稱爲馬

>>阅读原文<<