【李宏毅-強化學習筆記】p1-p2、PPO

一、policy gradient回顧 最核心的部分:   PPO是對policy gradient 的改進版,首先回顧下policy gradient並介紹兩個tips。Policy gradient的背景是:我們現在有N筆數據,用這些數據來優化agent也就是π-function。其中每一筆數據是:                  τ= {s1, a1,r1, s2, a2,r2,…,sT,
相關文章
相關標籤/搜索