【李宏毅-強化學習筆記】p1-p2、PPO

時間 2021-01-12

標籤強化學習简体版

原文原文鏈接

一、policy gradient回顧最核心的部分：　　PPO是對policy gradient 的改進版，首先回顧下policy gradient並介紹兩個tips。Policy gradient的背景是：我們現在有N筆數據，用這些數據來優化agent也就是π-function。其中每一筆數據是：　　　　　　　　　　　　　　　　　τ= {s1, a1,r1, s2, a2,r2,…,sT,

>>阅读原文<<