經過評估假設行爲來學習人類目標

時間 2020-02-27

標籤經過評估假設行爲學習人類目標简体版

原文原文鏈接

來源| deepmind 算法編譯| 武明利，責編| Carol安全出品 | AI科技大本營（ID：rgznai100）微信當咱們在現實世界中訓練強化學習（RL）代理時，咱們不會但願它們探索不安全的狀態，例如將一個移動機器人開進溝裏，或者向老闆發送一封很尷尬的電子郵件。網絡在不安全狀態下訓練RL代理被稱爲安全探索問題。咱們解決了這個問題中最難的部分，即代理最初不知道環境如何工做的，也不知道

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。