6. 強化學習之——策略優化進階

時間 2021-01-15

標籤強化學習简体版

原文原文鏈接

課程大綱 Policy Gradient 算法的不同的變種近五年的最新策略優化方法【6種方法，2條主線】主線一：Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO 主線二：Q-Learning -> DDPG ->TD3 -> SAC Policy Gradient 算法的不同形式總結一下： Policy Gra

>>阅读原文<<