CERL:更高效的explore

只是給出了這篇論文的主旨思想,具體細節我們就不論述了。 用於解決 explore 和 exploit的問題,更高效的explore。 用比較成熟的算法,例如TD3作爲learner,創建一組超參數gama不同的learner來學習,並用Resource Manager來動態的分配資源給更好的學習者。 同時,還用到了EA(Evolutionary Algorithms),其基本特徵如下: 1、產生新
相關文章
相關標籤/搜索