強化學習進階 第七講 TRPO

轉載自知乎專欄 天津包子餡兒 的知乎算法 今天開始咱們的第七講,TRPO。先簡短地介紹一下:TRPO是英文單詞Trust region policy optimization的簡稱,翻譯成中文是信賴域策略優化。提出這個算法的人是伯克利的博士生John Schulman,此人已於2016年博士畢業。Schulman的導師是強化學習領域的大神Pieter Abbeel, Abbeel是伯克利的副教授,
相關文章
相關標籤/搜索