OpenAI及DeepMind兩團隊令未來的AI機器更安全

時間 2021-01-06

原文原文鏈接

OpenAI和DeepMind的研究人員使用的新算法從人類反饋中學習，他們希望這樣做能使人工智能更安全。兩家公司均爲強化學習的專家，強化學習是機器學習的一個領域，其基本思想是，如果代理在特定的環境裏採取正確的行動完成了任務就給予獎勵。該目標是通過一種算法來指定的，代理經過程序後就會追逐獎勵，例如遊戲中的獲勝點。強化學習在訓練機器如何玩如Doom或Pong等遊戲或通過模擬駕駛自主駕駛汽車等案例中

>>阅读原文<<