強化學習入門總結

目錄 一、強化學習概述 1.強化學習簡介 2.發展歷程: 3.MDP(馬兒可夫決策過程) 4.why RL? 5.總結: 二、強化學習求解方法 1.動態規劃方法 2.蒙特卡洛方法 3.時間差分方法 三、強化學習算法分類 1.分類一: 2.分類二: 3.分類三: 4.分類四: 四、代表性算法 1.Q-learning 2.Sarsa: 3.大名鼎鼎的DQN 4.Policy Gradients算法
相關文章
相關標籤/搜索