讀論文Trust Region Policy Optimization

這篇論文的作者星光閃耀,都是大牛級人物,而且是最頂尖的那種。第一作者是Schulman(cs294課程的主講人)、Levine和Abbeel也在作者名單裏面。 論文首先通過一些surrogate目標函數來保證較大的步長來進行策略優化和提升,然後通過一系列的近似來推出理論公式和實際工程可行的算法,這就是鼎鼎大名的TRPO算法 論文通過一系列測試說明TRPO算法能夠學到複雜的策略比如游泳,跳和走,以及
相關文章
相關標籤/搜索