業界 | OpenAI提出強化學習近端策略優化，可替代策略梯度法

時間 2021-01-13

原文原文鏈接

選自OpenAI 機器之心編輯部參與：蔣思源、Smith 近日，OpenAI 發佈了一種新型的強化學習算法，近端策略優化（Proximal Policy Optimization/PPO）算法，該算法的實現和調參十分簡單，並且它的性能甚至要超過現階段最優秀的方法。因爲該算法實現非常簡單並且有優秀的性能，PPO 已經成爲了 OpenAI 默認使用的強化學習算法。近端策略優化（PPO）可以讓我們在