RL論文閱讀21-MB-PILCO2011

1. Tittle 2011 2. 標籤 model based planning data efficient continuous / discrete 3. 總結 MB類算法,一個關鍵問題在於減少模型的偏差。一個模型偏差過大,那麼使用這個模型進行planning必然不準確。PILCO減少誤差的方式是學習一個基於概率的動力學模型,並且在進行long-term planning 時,引入了模型的
相關文章
相關標籤/搜索