強化學習進階第七講 TRPO

時間 2020-05-12

標籤強化學習進階第七 trpo 简体版

原文原文鏈接

轉載自知乎專欄天津包子餡兒的知乎算法今天開始咱們的第七講，TRPO。先簡短地介紹一下：TRPO是英文單詞Trust region policy optimization的簡稱，翻譯成中文是信賴域策略優化。提出這個算法的人是伯克利的博士生John Schulman，此人已於2016年博士畢業。Schulman的導師是強化學習領域的大神Pieter Abbeel, Abbeel是伯克利的副教授，

>>阅读原文<<