可貴的元旦小假期,沒有什麼比得上在慵懶的冬日豔陽下放鬆本身,拿起手機,叫上了許久未一塊兒做戰的小夥伴,到王者榮耀中激戰了一番,彷彿又回到了當年那個年輕的本身。算法
厲害不,畢竟當年DD也是王者五十星的水平,哈哈。架構
不過哪怕是我這樣的王者,在去年也被騰訊上線的超強電腦AI絕悟虐的不輕。記得當時有朋友來找我,說是騰訊上線了一個絕悟挑戰模式,裏面的電腦AI和以往被咱們拿來練熟練度的電腦相比,簡直就是雲泥之別,一關比一關難,聽說連一些職業選手組成的車隊都翻車了。框架
聽的那麼玄乎,頭硬的我天然不會輕信,而後隨後的幾天中,果不其然被絕悟虐的生活不可自理,最後仍是灰溜溜的靠着網上流傳的「大喬-米萊蒂」傳送偷家套路才勉強過關。異步
一邊回憶着被絕悟慘虐的經歷一邊瀏覽着最近的新聞,忽然眼中爆射出一道驚芒,中國足球世界盃奪冠了!分佈式
你沒有看錯,的確是中國足球世界盃奪冠了,可是奪冠的並不是傳統意義上的男足女足,而是由咱們曾經熟悉的絕悟進化以後重生的足球AI-WeKick!性能
WeKick奪冠的是首屆谷歌足球Kaggle競賽,參賽隊伍多達1138支,能夠說是表明了目前地球上最頂尖的足球AI比賽,稱之爲足球AI世界盃也不爲過。學習
而在全部參賽隊伍中,WeKick的得分高達1785.8分,佔據絕對優點地位,就像96年的公牛、02年的巴西同樣,勢不可擋!人工智能
不可置信?再給你看下精彩集錦!設計
快、準、直!一記完美的長傳後,直射球門!3d
連續突破重圍,輕鬆傳球 4 次。
有些人可能不覺得然,以爲以前絕悟在王者榮耀的表現,用去踢足球,也是很簡單的。
其實否則,首先王者榮耀是一個5V5的遊戲,而足球是一個11v11的運動,就是說AI須要控制的智能體(球員)個數多了一倍以上,其次足球賽雖也屬於即時策略型遊戲,但也須要AI具有長線思考、快速決策、處理複雜環境的能力。AI須要考慮到每一個球員的速度、加速度、射門、頭球、傳球、防守等各類指數,同時還須要操控球員之間進行頻繁的相互配合,也須要時刻觀察對手球員的行爲,防範於未然,作出最好的選擇!
針對這些不一樣的狀況,WeKick團隊發揮想象,主要運用瞭如下三個創新進行鍼對性的模型訓練。
Self-Play強化學習框架
WeKick團隊採用Self-Play(自博弈)強化學習來從零開始訓練模型,並以此部署到異步分佈式的強化學習框架中。異步架構犧牲了一部分訓練的實時性能,可是相應的,獲得了更高的靈活性,同時能夠支持在訓練過程當中按實際須要調整整個計算資源,使其能快速完美的適應智能體人數更多的足球遊戲訓練環境。
GAIL生成對抗模擬學習
王者榮耀是一款對抗類的MOBA遊戲,其最終目的和足球遊戲迥然不一樣,WeKick團隊採用了GAIL(生成對抗模擬學習)與人工設計的獎勵結合的方式,在特徵與獎勵設計上進行了擴展和創新。
運用這個方案,WeKick能夠從其它球隊學習,擬合專家行爲的狀態和動做分佈,再將GAIL訓練的模型做爲固定對手進行進一步Self-Play訓練,進一步提高策略的穩健性。
League多風格強化學習
上述的Self-Play強化學習方案,有一個還沒有解決的缺憾,就是經過這個方案獲得的模型很容易造成單一的風格。用足球比賽的說法就是打法一成不變,很容易被針對或趕上天生剋制的陣型就不知所措。爲了解決這個問題,WeKick團隊採用了針對多智能體學習任務的 League(若干策略池)多風格強化學習訓練方案,提高策略的多樣性。
這種League多風格強化學習訓練方案的主要流程,用一句話解釋就是 由簡入繁!
根據其內部能力評分系統顯示,這種算法下的主模型,能夠在基礎模型的基礎上提升200分,比最強的風格化打法高80分!
最後介紹下谷歌足球Kaggle競賽
Kaggle創立於2010年,是全球最大的數據科學社區和數據科學競賽平臺。本屆比賽是Kaggle首次針對足球AI領域發佈的賽題。
因爲足球運動團隊策略要求在瞬息萬變的賽場上,作出最正確的團隊協做、實時決策和競爭策略,其中的難點,一直是困擾世界頂尖AI研究團隊的難題。就像前文提到的,從絕悟進化到WeKick,控制的智能體各數從5v5提升到11v11,這中間強化學習的難度將隨着智能體個數的增加呈現指數級的爆炸增加。
其實早在參加這個比賽以前,絕悟的開發團隊早已經從足球比賽中的單個智能體控制轉向多智能體同時控制、協同做戰深刻的研究方向。在先前參加的5v5形式的谷歌天梯比賽 Google Research Football League 中,絕悟已經贏得過冠軍,此次能夠說是再度升級版的奪冠。
從最先的圍棋AI絕藝,到王者榮耀的MOBA遊戲AI絕悟,再到現在的足球AI-WeKick,騰訊在人工智能的深度強化學習程度正在步步進化,將來頗有可能運用於其餘更普遍的行業中,真正作到人工智能爲人類服務。
而此刻的我,只想何時能有機會和這個WeKick踢上(被虐)幾場比賽,你也想和他過過招嗎?
歡迎關注個人公衆號:程序猿DD,得到獨家整理的免費學習資源助力你的Java學習之路!另每週贈書不停哦~