讀論文Trust Region Policy Optimization

時間 2021-01-12

標籤 Reinforcement learning 简体版

原文原文鏈接

這篇論文的作者星光閃耀，都是大牛級人物，而且是最頂尖的那種。第一作者是Schulman（cs294課程的主講人）、Levine和Abbeel也在作者名單裏面。論文首先通過一些surrogate目標函數來保證較大的步長來進行策略優化和提升，然後通過一系列的近似來推出理論公式和實際工程可行的算法，這就是鼎鼎大名的TRPO算法論文通過一系列測試說明TRPO算法能夠學到複雜的策略比如游泳，跳和走，以及

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。