強化學習入門總結

時間 2021-01-13

標籤強化學習 MDP 值迭代策略迭代简体版

原文原文鏈接

目錄一、強化學習概述 1.強化學習簡介 2.發展歷程： 3.MDP（馬兒可夫決策過程） 4.why RL？ 5.總結：二、強化學習求解方法 1.動態規劃方法 2.蒙特卡洛方法 3.時間差分方法三、強化學習算法分類 1.分類一： 2.分類二： 3.分類三： 4.分類四：四、代表性算法 1.Q-learning 2.Sarsa: 3.大名鼎鼎的DQN 4.Policy Gradients算法

>>阅读原文<<