業界 | OpenAI提出強化學習近端策略優化,可替代策略梯度法

選自OpenAI 機器之心編輯部 參與:蔣思源、Smith 近日,OpenAI 發佈了一種新型的強化學習算法,近端策略優化(Proximal Policy Optimization/PPO)算法,該算法的實現和調參十分簡單,並且它的性能甚至要超過現階段最優秀的方法。因爲該算法實現非常簡單並且有優秀的性能,PPO 已經成爲了 OpenAI 默認使用的強化學習算法。 近端策略優化(PPO)可以讓我們在
相關文章
相關標籤/搜索