David Silver強化學習課程筆記(二)

第二課:馬爾科夫決策過程         爲什麼要講馬爾科夫決策過程?因爲幾乎所有的強化學習問題都可以表述成馬爾科夫決策過程(MDP)的形式,比如說:最優控制主要是處理連續MDP問題、任何部分可觀測的問題都可以轉化爲MDP問題、bandits都是僅有一個狀態的MDP問題。這裏的bandit是一種最爲簡單的馬爾科夫問題:給你一組actions,然後你選擇一個action,從而得到reward,僅此而
相關文章
相關標籤/搜索