David Silver 強化學習Lecture2:MDP

    David Silver 強化學習系列博客的內容整理自David Silver 強化學習的PPT和知乎葉強強化學習專欄。 1 Markov Processes 1.1 Introduction to MDPs     在強化學習中,馬爾科夫決策過程是對完全可觀測的環境進行描述的,我們可以知曉所有信息,一切相關信息都被呈現給agent。幾乎所有的強化學習問題都可以轉化爲MDP。 1.2 Ma
相關文章
相關標籤/搜索