6. 強化學習之——策略優化進階

課程大綱 Policy Gradient 算法的不同的變種 近五年的最新策略優化方法【6種方法,2條主線】 主線一:Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO 主線二:Q-Learning -> DDPG ->TD3 -> SAC Policy Gradient 算法的不同形式 總結一下: Policy Gra
相關文章
相關標籤/搜索