第一課:一文讀懂馬爾科夫過程

1.馬爾科夫決策過程(MDPs)簡介 馬爾科夫決策過程是對強化學習(RL)問題的數學描述。幾乎所有的RL問題都能通過MDPs來描述: 最優控制問題可以用MDPs來描述; 部分觀測環境可以轉化成POMDPs; **機問題是隻有一個狀態的MDPs; 注:雖然大部分DL問題都能轉化爲MDPs,但是以下所描述的MDPs是全觀測的情況。 強化學習中的表述符號:   2.馬爾科夫性 只要知道現在,將來和過去條
相關文章
相關標籤/搜索