谷歌新智能體Dreamer將亮相NeurIPS 2019,數據效率比前身PlaNet快8個小時

來源:雷鋒網 在具有挑戰性的環境中,一些人工智能系統通過利用過去經驗所提供的世界表象來實現目標。研究人員將這些應用推廣到新的情況,使它們能夠在以前從未遇到過的環境中完成任務。 事實證明,強化學習——一種使用獎勵來推動軟件策略朝着目標前進的訓練技術——特別適合學習總結agent經驗的世界模型,並通過擴展來促進新行爲的學習。 近日,來自Google、Alphabet子公司DeepMind和多倫多大學的
相關文章
相關標籤/搜索