開發AI學習模型 訓練AI與人類合做玩遊戲

DeepMind最近發佈了一項新的開發培訓學習AI模型,並進行了深刻學習。在複雜的多人在線3D遊戲《雷神之錘III競技場》的升旗競賽場景中,AI玩家已經達到了人類水平的表現,而且能夠成功地與人類玩家合做,不只如此。 AI模型的研究結果也能夠擴展到《雷神之錘III競技場》一個完整的遊戲場景,它展現了多智能體訓練在AI領域發展的潛力。 學習

這項研究的目標是多代理學習,即每一個代理人必須獨立行動並學習與其餘代理人進行互動和協做。 DeepMind指出,有數十億人生活在地球上,每一個人都有本身的目標和活動,但仍然可以經過團體組織和社會彙集在一塊兒,展現集體智慧,這是DeepMind但願AI玩家學習的東西,但這是也是一項很是艱鉅的任務,由於環境一直在變化。

爲了研究這個難題,DeepMind使用3D第一視圖多人在線遊戲來訓練表明最流行類型的遊戲的AI模型,而且因爲沉浸式遊戲玩法,能夠收集數百萬個遊戲。玩家的想象力還可使AI學習策略,技巧,手眼協調和團隊合做。對於AI玩家來講,挑戰是直接從原始像素數據中學習並生成動做。這種複雜性也使得第一個多人在線遊戲的視角已成爲一個豐富的AI培訓資源。代理

首先,DeepMind訓練AI玩家學會像其餘玩家同樣行動,並學習與同一團隊中的玩家合做。不管是AI仍是人類球員,旗幟比賽的規則都很簡單,但動態變化很複雜,兩支球隊各自的球員應該在他們給定的地圖上拿走另外一支球隊的旗幟並帶回他們球隊的旗幟。與此同時,他們必須保護團隊的旗幟。若是您點擊持有團隊旗幟的敵對玩家,您能夠將旗幟返回原始旗幟。在基地,5分鐘內擁有最多旗幟的球隊獲勝。cdn

從遊戲AI玩家的角度來看,得到旗幟的比賽須要玩家與團隊合做以對抗敵人。爲了使研究更有趣,DeepMind爲升旗比賽增長了一些變量,每場比賽的地圖配置都不一樣。所以,AI玩家被迫尋找共同的策略,而不是依靠內存映射來完成fun88公益任務。此外,爲了確保公平的競爭環境,AI玩家和人類玩家以相似的方式玩旗幟。在遊戲中,AI播放器觀察像素圖像的流數據並經過模擬遊戲控制器生成執行動做。blog

DeepMind使用的加強型學習有三個概念。首先,DeepMind訓練一組AI玩家,而不只僅是一個。所以,AI能夠互相學習,提供多個隊友或敵人,其次,每一個AI玩家都會學習你本身的內部獎勵信號,這樣AI就會產生本身的內部目標,好比抓住旗幟。第三,AI玩家執行遊戲的時區分爲快速和慢速,以提升AI對內存的使用並生成一致的動做序列能力。遊戲

相關文章
相關標籤/搜索