策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

雷鋒網 AI 科技評論按:美國時間7月20日,OpenAI 剛剛通過自己的研究博客介紹了一種新的優化算法 Proximal Policy Optimization(近端策略優化,PPO)。據介紹,這種算法用在強化學習中時表現能達到甚至超過現有算法的頂尖水平,同時還更易於實現和調試。所以 OpenAI 已經把PPO作爲自己強化學習研究中首選的算法。雷鋒網(公衆號:雷鋒網) AI 科技評論把這篇介紹
相關文章
相關標籤/搜索