Trust Region Policy Optimization (TRPO) 背後的數學原理

時間 2021-01-13

原文原文鏈接

本文是自己的TRPO算法學習筆記，在數學原理推導核心部分附有自己的理解與解釋。整篇文章邏輯清晰，思路順暢。有想推導的同學可以一起學習。 TRPO和PPO都是基於Minorize-Maximization MM的算法。 Surrogate function RL中期望maximizing the expected discounted rewards，期望折扣獎勵 η \eta η 可用

>>阅读原文<<