RL論文閱讀8-mb-ME-TRPO2018

文章目錄 1. Tittle 2. 標籤 3. 總結 針對的問題 解決的思路 4. 原理 Vanilla Approch(原始方法) 1. 模型學習 2. 策略學習 改進的方法ME TRPO 1. Tittle source 2. 標籤 Model-Based Continue Actions 3. 總結 如題目所示,就是把model-ensemble的思想應用到了TROP算法上。 針對的問題 數
相關文章
相關標籤/搜索