強化學習：Markov Decision Process (基於南大俞揚博士演講的修改和補充）

時間 2021-01-13

標籤 Morkov 馬爾科夫決策強化學習简体版

原文原文鏈接

馬爾科夫決策過程（Markov Decision Process）一、強化學習基本數學模型——馬爾科夫過程（Markov Process）大家可能聽到了很多詞，包括MDP，Q-Learning 、還有很多算法的名字，我在報告裏就簡單介紹一下強化學習發展的過程，以及裏面會碰到什麼問題。強化學習的歷史非常悠久，其中，早期的強化學習和它的一個數學模型MDP有

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。