強化學習入門（三）：PPO、PPO2、TRPO算法思想

時間 2021-01-21

標籤 # 強化學習機器學習算法简体版

原文原文鏈接

在上一篇博客最後，我們說到了 θ \theta θ和 θ ′ \theta' θ′是不能差太多的，不然結果會不好，那麼怎麼避免它們差太多呢? 這就是這一篇要介紹的PPO所在做的事情。摘要： PPO在原目標函數的基礎上添加了KL divergence 部分，用來表示兩個分佈之前的差別，差別越大則該值越大。那麼施加在目標函數上的懲罰也就越大，因此要儘量使得兩個分佈之間的差距小，才能保證較大的目標函數

>>阅读原文<<