DeepMind AI與人類合做玩奪旗策略遊戲，表現與人類玩家至關

時間 2019-11-16

原文原文鏈接

DeepMind用強化學習訓練AI玩家，在複雜多人連線3D遊戲中的奪旗競賽場景，AI玩家的表現已達人類水準學習

DeepMind最近發表用強化學習訓練AI模型的新進展，在複雜多人連線3D遊戲《雷神之錘III競技場》中的奪旗競賽場景，AI玩家的表現已達人類水準，可以成功地與人類玩家合做，不只如此，該AI模型的研究成果，也能夠擴展到《雷神之錘III競技場》完整的遊戲場景中，該研究顯示多代理人（multi-agent）訓練在AI領域開發上的潛力。

這個研究的目標是多代理人學習，也就是每一個個別的代理人都必須獨立行動，並學會與其餘代理人互動和合做，DeepMind指出，地球上有數十億的人居住，每一個人都有本身的目標和活動，可是仍然能夠透過團體組織和社會彙集在一塊兒，展示出集體智慧，這就是DeepMind指望AI玩家能學會的能力，不過，這也是一個很是困難的任務，由於環境一直在改變。代理

爲了研究這道難題，DeepMind利用3D第一視角的多人連線遊戲，來訓練AI模型，這些遊戲可以表明最受歡迎的遊戲種類，而且也由於沉浸式的遊戲方式，能夠收集到數百萬遊戲玩家的想像，也能使AI學習到策略、技巧、手眼協調和團隊合做，對AI玩家來講，挑戰是要直接從原始的像素資料直接學習，併產生動做，這樣的複雜度也使得第一視角的多人連線遊戲，成爲豐富的AI訓練資源。cdn

首先，DeepMind訓練AI玩家學習像其餘玩家同樣行動，並且要學會與同隊的玩家合做，無論是AI或是人類玩家，奪旗競賽的規則很簡單，可是動態的變化卻很複雜，兩個隊伍各自的玩家要在給定的地圖上，搶奪對方隊伍的旗幟帶回本身的基地，同時又要保護本身隊伍的旗幟，若點擊持有本身隊伍旗幟的敵對玩家，就能將旗幟送回本來的基地，在5分鐘內擁有最多旗幟的隊伍即獲勝。blog

從遊戲AI玩家的角度來看，奪旗競賽須要玩家與團隊合做一塊兒對抗敵人，爲了讓研究變得更有趣，DeepMind爲奪旗競賽增添了一些變數，每一個競賽中的地圖配置都不相同，如此一來，AI玩家就被迫要找出通用的策略，而不是靠着記憶地圖來完成任務，除此以外，爲了確保競爭環境公平，AI玩家和人類玩家是用相似的方式玩奪旗遊戲，AI玩家觀察像素圖像的串流資料，並透過模擬遊戲控制器來產生執行動做。遊戲

DeepMind所用的強化學習有3大概念，第一，DeepMind訓練了一羣AI玩家，而不是隻有一個，所以，AI之間能夠互相學習，提供多元的隊友或是敵人，第二，每一個AI玩家都會學習本身的內部獎勵訊號，使得AI產生本身的內部目標，像是搶奪旗幟，第三，AI玩家執行遊戲的時間區段的分爲快和慢兩種，來改善AI使用記憶體和產生一致行動序列的能力。資源

獲取最新Flink、AI資訊，可關注同名公衆號開發

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。