AI學習筆記——MDP(Markov Decision Processes馬可夫決策過程)簡介

前面好幾篇文章都在介紹強化學習(RL),以及強化學習的一些具體算法,但是強化學習中用到的最重要的理論MDP卻還沒提到。這篇文章就來說說MDP。 講MDP的文章和資料非常多,理論和數學公式也能輕易找到,所以本文並不是要嚴謹地推導MDP,而是想讓讀者感性地認識MDP以及它對強化學習的重要性。本文主要的參考資料來自於David Silver 教授(DeepMind 的創始人)在UCL的課程以及Richa
相關文章
相關標籤/搜索