OpenAI發佈新強化學習算法:近端策略優化

本文來自AI新媒體量子位(QbitAI) OpenAI今天發佈一類新的強化學習算法:近端策略優化(Proximal Policy Optimization,PPO)。因爲易於使用和表現良好,PPO已經成爲OpenAI默認的強化學習算法。 PPO讓我們在根據挑戰性的環境中訓練AI策略,例如上面所示的Roboschool訓練場中,智能體(agent)的任務是追逐粉紅色的球體,並在期間學習走路、跑步、轉
相關文章
相關標籤/搜索