RL論文閱讀14-MB-PETS2018

1. Tittle 2. 標籤 Model Based 3. 總結 3.1 針對的問題 MB算法雖然能夠獲得很棒的sample efficienty,但是通常落後於最好的model-free。在大規模參數的函數估計器中更爲明顯,如神經網絡。 本論文就是研究如何跨越這個差距。提出了Probabilistic ensembles with trajectory sampling(PETS)。算法結合了
相關文章
相關標籤/搜索