強化學習--信賴域系方法:TRPO、PPO(附適合初學者閱讀的完整PPO代碼鏈接)

在前面的章節裏,咱們已經介紹了基於策略的強化學習算法,也提到了異策略強化學習須要知足的條件:因爲重要性採樣的關係咱們但願每次更新的時候策略分佈之間差距並非很大,這其實是一種約束,即咱們但願能每次更新的時候不大幅度地改變分佈的形態,基於這種考慮openai的前輩們提出了TRPO算法,可是TRPO算法會有一些缺陷,他拿二次函數去近似約束條件,拿一次函數近似待優化的損失函數,這種近似會形成收斂上的困難,
相關文章
相關標籤/搜索