OpenAI及DeepMind兩團隊令未來的AI機器更安全

OpenAI和DeepMind的研究人員使用的新算法從人類反饋中學習,他們希望這樣做能使人工智能更安全。 兩家公司均爲強化學習的專家,強化學習是機器學習的一個領域,其基本思想是,如果代理在特定的環境裏採取正確的行動完成了任務就給予獎勵。該目標是通過一種算法來指定的,代理經過程序後就會追逐獎勵,例如遊戲中的獲勝點。 強化學習在訓練機器如何玩如Doom或Pong等遊戲或通過模擬駕駛自主駕駛汽車等案例中
相關文章
相關標籤/搜索