強化學習David Silver課程Lecture2 筆記

Lecture Two--Markov Decision Process 這一節我們學習了馬爾科夫決策過程,這個在強化學習中也是很重要的一個概念。 首先簡略介紹一下MDP(Markov Decision Process),他一般描述的是強化學習中的環境,該環境是可完全觀測的,現在所處的狀態完全描述了該過程,即只關心現在,過去信息沒有任何影響。幾乎所有的強化學習問題都可以變爲MDP,這裏可能會有疑問
相關文章
相關標籤/搜索