經過評估假設行爲來學習人類目標

來源| deepmind 算法 編譯| 武明利,責編| Carol安全 出品 | AI科技大本營(ID:rgznai100)微信 當咱們在現實世界中訓練強化學習(RL)代理時,咱們不會但願它們探索不安全的狀態,例如將一個移動機器人開進溝裏,或者向老闆發送一封很尷尬的電子郵件。網絡 在不安全狀態下訓練RL代理被稱爲安全探索問題。咱們解決了這個問題中最難的部分,即代理最初不知道環境如何工做的,也不知道
相關文章
相關標籤/搜索