OpenAI發佈新強化學習算法：近端策略優化

時間 2021-01-12

原文原文鏈接

本文來自AI新媒體量子位（QbitAI） OpenAI今天發佈一類新的強化學習算法：近端策略優化（Proximal Policy Optimization，PPO）。因爲易於使用和表現良好，PPO已經成爲OpenAI默認的強化學習算法。 PPO讓我們在根據挑戰性的環境中訓練AI策略，例如上面所示的Roboschool訓練場中，智能體（agent）的任務是追逐粉紅色的球體，並在期間學習走路、跑步、轉

>>阅读原文<<