DeepMind用強化學習訓練AI玩家,在複雜多人連線3D遊戲中的奪旗競賽場景,AI玩家的表現已達人類水準學習
DeepMind最近發表用強化學習訓練AI模型的新進展,在複雜多人連線3D遊戲《雷神之錘III競技場》中的奪旗競賽場景,AI玩家的表現已達人類水準,可以成功地與人類玩家合做,不只如此,該AI模型的研究成果,也能夠擴展到《雷神之錘III競技場》完整的遊戲場景中,該研究顯示多代理人(multi-agent)訓練在AI領域開發上的潛力。這個研究的目標是多代理人學習,也就是每一個個別的代理人都必須獨立行動,並學會與其餘代理人互動和合做,DeepMind指出,地球上有數十億的人居住,每一個人都有本身的目標和活動,可是仍然能夠透過團體組織和社會彙集在一塊兒,展示出集體智慧,這就是DeepMind指望AI玩家能學會的能力,不過,這也是一個很是困難的任務,由於環境一直在改變。代理
爲了研究這道難題,DeepMind利用3D第一視角的多人連線遊戲,來訓練AI模型,這些遊戲可以表明最受歡迎的遊戲種類,而且也由於沉浸式的遊戲方式,能夠收集到數百萬遊戲玩家的想像,也能使AI學習到策略、技巧、手眼協調和團隊合做,對AI玩家來講,挑戰是要直接從原始的像素資料直接學習,併產生動做,這樣的複雜度也使得第一視角的多人連線遊戲,成爲豐富的AI訓練資源。cdn
首先,DeepMind訓練AI玩家學習像其餘玩家同樣行動,並且要學會與同隊的玩家合做,無論是AI或是人類玩家,奪旗競賽的規則很簡單,可是動態的變化卻很複雜,兩個隊伍各自的玩家要在給定的地圖上,搶奪對方隊伍的旗幟帶回本身的基地,同時又要保護本身隊伍的旗幟,若點擊持有本身隊伍旗幟的敵對玩家,就能將旗幟送回本來的基地,在5分鐘內擁有最多旗幟的隊伍即獲勝。blog
從遊戲AI玩家的角度來看,奪旗競賽須要玩家與團隊合做一塊兒對抗敵人,爲了讓研究變得更有趣,DeepMind爲奪旗競賽增添了一些變數,每一個競賽中的地圖配置都不相同,如此一來,AI玩家就被迫要找出通用的策略,而不是靠着記憶地圖來完成任務,除此以外,爲了確保競爭環境公平,AI玩家和人類玩家是用相似的方式玩奪旗遊戲,AI玩家觀察像素圖像的串流資料,並透過模擬遊戲控制器來產生執行動做。遊戲
DeepMind所用的強化學習有3大概念,第一,DeepMind訓練了一羣AI玩家,而不是隻有一個,所以,AI之間能夠互相學習,提供多元的隊友或是敵人,第二,每一個AI玩家都會學習本身的內部獎勵訊號,使得AI產生本身的內部目標,像是搶奪旗幟,第三,AI玩家執行遊戲的時間區段的分爲快和慢兩種,來改善AI使用記憶體和產生一致行動序列的能力。資源
獲取最新Flink、AI資訊,可關注同名公衆號開發