Trust Region Policy Optimization (TRPO) 背後的數學原理

  本文是自己的TRPO算法學習筆記,在數學原理推導核心部分附有自己的理解與解釋。整篇文章邏輯清晰,思路順暢。有想推導的同學可以一起學習。   TRPO和PPO都是基於Minorize-Maximization MM的算法。 Surrogate function   RL中期望maximizing the expected discounted rewards,期望折扣獎勵 η \eta η 可用
相關文章
相關標籤/搜索