David Silver強化學習課程筆記（二）

時間 2020-12-23

原文原文鏈接

第二課：馬爾科夫決策過程爲什麼要講馬爾科夫決策過程？因爲幾乎所有的強化學習問題都可以表述成馬爾科夫決策過程（MDP）的形式，比如說：最優控制主要是處理連續MDP問題、任何部分可觀測的問題都可以轉化爲MDP問題、bandits都是僅有一個狀態的MDP問題。這裏的bandit是一種最爲簡單的馬爾科夫問題：給你一組actions，然後你選擇一個action，從而得到reward，僅此而

>>阅读原文<<