強化學習入門(三):PPO、PPO2、TRPO算法思想

在上一篇博客最後,我們說到了 θ \theta θ和 θ ′ \theta' θ′是不能差太多的,不然結果會不好,那麼怎麼避免它們差太多呢? 這就是這一篇要介紹的PPO所在做的事情。 摘要: PPO在原目標函數的基礎上添加了KL divergence 部分,用來表示兩個分佈之前的差別,差別越大則該值越大。那麼施加在目標函數上的懲罰也就越大,因此要儘量使得兩個分佈之間的差距小,才能保證較大的目標函數
相關文章
相關標籤/搜索