在強化學習領域最受歡迎的A3C算法，DDPG算法，PPO算法等都是AC框架

時間 2021-01-16

原文原文鏈接

AC算法框架被廣泛應用於實際強化學習算法中，該框架集成了值函數估計算法和策略搜索算法，是解決實際問題時最常考慮的框架。大家衆所周知的alphago便用了AC框架。而且在強化學習領域最受歡迎的A3C算法，DDPG算法，PPO算法等都是AC框架。我們這一講便總結下AC算法的發展並介紹目前最受關注的A3C算法和PPO算法。本講的內容包括： 1.1 策略梯度的直觀解釋 1.2 Actor-Critic框

>>阅读原文<<