在強化學習領域最受歡迎的A3C算法,DDPG算法,PPO算法等都是AC框架

AC算法框架被廣泛應用於實際強化學習算法中,該框架集成了值函數估計算法和策略搜索算法,是解決實際問題時最常考慮的框架。大家衆所周知的alphago便用了AC框架。而且在強化學習領域最受歡迎的A3C算法,DDPG算法,PPO算法等都是AC框架。我們這一講便總結下AC算法的發展並介紹目前最受關注的A3C算法和PPO算法。 本講的內容包括: 1.1 策略梯度的直觀解釋 1.2 Actor-Critic框
相關文章
相關標籤/搜索