RL論文閱讀10-me-RL2.2016

Tittle source 標籤 Meta-Learning 總結 針對的問題 Data efficiency Fast Learn 解決方法 把agent的學習過程視爲一個可以使用標準的RL算法優化的objective,agent使用一個RNN網絡來表示,接收past rewards, actions, terminations flags, observations. 它保留着某個MDP過程的
相關文章
相關標籤/搜索