強化學習:Markov Decision Process (基於南大俞揚博士演講的修改和補充)

              馬爾科夫決策過程(Markov Decision Process)       一、強化學習基本數學模型——馬爾科夫過程(Markov Process) 大家可能聽到了很多詞,包括MDP,Q-Learning 、還有很多算法的名字,我在報告裏就簡單介紹一下強化學習發展的過程,以及裏面會碰到什麼問題。 強化學習的歷史非常悠久,其中,早期的強化學習和它的一個數學模型MDP有
相關文章
相關標籤/搜索